論文の概要: "What Did It Actually Do?": Understanding Risk Awareness and Traceability for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2603.28551v2
- Date: Tue, 31 Mar 2026 09:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.468881
- Title: "What Did It Actually Do?": Understanding Risk Awareness and Traceability for Computer-Use Agents
- Title(参考訳): 「実際に何をしたのか?」 : コンピュータ利用エージェントのリスク意識とトレーサビリティの理解
- Authors: Zifan Peng, Mingchen Li,
- Abstract要約: 私たちはOpenClawエコシステムのコーパスを構築しており、インシデント、アドバイザリ、悪意のあるスキルレポート、ニュースカバレッジ、チュートリアル、ソーシャルメディアの物語などが含まれています。
我々は,ユーザと実践者がいかにスキル,自律性,特権,永続性,アンインストールを理解しているかを調べるために,インタビュースタディを実施している。
我々は、エージェントアクション、タッチされたリソース、パーミッション履歴、証明、永続的な副作用を可視化するためのトレーサビリティフレームワークおよびプロトタイプインターフェースであるAgentTraceを提案する。
- 参考スコア(独自算出の注目度): 14.372676317868013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Personalized computer-use agents are rapidly moving from expert communities into mainstream use. Unlike conventional chatbots, these systems can install skills, invoke tools, access private resources, and modify local environments on users' behalf. Yet users often do not know what authority they have delegated, what the agent actually did during task execution, or whether the system has been safely removed afterward. We investigate this gap as a combined problem of risk understanding and post-hoc auditability, using OpenClaw as a motivating case. We first build a multi-source corpus of the OpenClaw ecosystem, including incidents, advisories, malicious-skill reports, news coverage, tutorials, and social-media narratives. We then conduct an interview study to examine how users and practitioners understand skills, autonomy, privilege, persistence, and uninstallation. Our findings suggest that participants often recognized these systems as risky in the abstract, but lacked concrete mental models of what skills can do, what resources agents can access, and what changes may remain after execution or removal. Motivated by these findings, we propose AgentTrace, a traceability framework and prototype interface for visualizing agent actions, touched resources, permission history, provenance, and persistent side effects. A scenario-based evaluation suggests that traceability-oriented interfaces can improve understanding of agent behavior, support anomaly detection, and foster more calibrated trust.
- Abstract(参考訳): パーソナライズされたコンピュータ利用エージェントは、専門家コミュニティから主流な利用へと急速に移行している。
従来のチャットボットとは異なり、これらのシステムはスキルをインストールし、ツールを起動し、プライベートリソースにアクセスし、ユーザーに代わってローカル環境を変更することができる。
しかし、ユーザーは、どの権限が委譲されたのか、エージェントがタスク実行中に実際に何をしたのか、あるいはシステムがその後安全に削除されたかどうかを知らないことが多い。
我々は,このギャップをリスク理解とポストホック監査の複合問題として,OpenClawをモチベーションケースとして用いて検討した。
私たちはまず、インシデント、アドバイザリ、悪意あるスキルレポート、ニュースカバレッジ、チュートリアル、ソーシャルメディアの物語を含む、OpenClawエコシステムのマルチソースコーパスを構築しました。
次に、ユーザと実践者がいかにスキル、自律性、特権、永続性、アンインストールを理解しているかを調べるために、インタビュースタディを実施します。
以上の結果から, 参加者はこれらのシステムを抽象的に危険であると認識することが多いが, 具体的な精神モデルが欠如していること, リソースエージェントがアクセスできること, 実行後や削除後にどのような変化が残るのかが示唆された。
これらの知見により,エージェントアクション,触覚リソース,パーミッション履歴,証明,永続的な副作用を可視化するためのトレーサビリティフレームワークとプロトタイプインターフェースであるAgentTraceを提案する。
シナリオベースの評価では、トレーサビリティ指向インタフェースはエージェントの動作の理解を改善し、異常検出をサポートし、より校正された信頼を育むことが示唆されている。
関連論文リスト
- Agent-Sentry: Bounding LLM Agents via Execution Provenance [4.306721924522171]
自然言語命令に基づく新しい機能を自律的に生成するエージェントコンピューティングシステムは、ますます普及しつつある。
非常に有能だが、これらのシステムは深刻なセキュリティ、プライバシー、安全上の懸念を提起する。
本稿では,エージェントシステムにこの問題に対処するためのフレームワークであるAgent-Sentryを提案する。
論文 参考訳(メタデータ) (2026-03-24T07:12:53Z) - Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance [23.059379933610163]
ガイダンスインジェクション(Guidance Injection)は、ブートストラップのガイダンスファイルに敵の運用ストーリーを埋め込むステルス攻撃ベクターである。
エクスプロイト,ワークスペース破壊,特権エスカレーション,持続的バックドア設置など,13の攻撃カテゴリにまたがる26の悪意あるスキルを構築した。
我々の攻撃は16.4%から64.2%の確率で成功し、悪意のある行動の大半はユーザーの確認なしに自律的に実行される。
論文 参考訳(メタデータ) (2026-03-20T14:17:56Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff [0.0]
自律エージェントの非決定論的性質は信頼性の課題を示す。
二次的な「メタ認知」層は一次LCNC剤を活発に監視する。
人間のイントロスペクションにインスパイアされたこのレイヤは、差し迫ったタスクの失敗を予測するように設計されている。
論文 参考訳(メタデータ) (2025-09-24T06:10:23Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。