論文の概要: Who Owns This Agent? Tracing AI Agents Back to Their Owners
- arxiv url: http://arxiv.org/abs/2605.16035v1
- Date: Fri, 15 May 2026 15:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.34445
- Title: Who Owns This Agent? Tracing AI Agents Back to Their Owners
- Title(参考訳): 誰がエージェントを所有しているのか? AIエージェントを所有者に追跡する
- Authors: Ruben Chocron, Doron Jonathan Ben Chayim, Eyal Lenga, Gilad Gressel, Alina Oprea, Yisroel Mirsky,
- Abstract要約: AIエージェントはますます、世界で自律的に行動するようにデプロイされている。
悪意あるエージェントを、それをデプロイしたアカウントに遡る信頼できる方法はまだない。
この問題を定義し、実用的な解決策を提示する最初の試みである。
- 参考スコア(独自算出の注目度): 7.444382451377645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly deployed to act autonomously in the world, yet there is still no reliable way to trace a harmful agent back to the account that deployed it. This creates the same accountability gap across both ends of the intent spectrum: benign operators may deploy misconfigured or overbroad agents that cause harm unintentionally, while malicious operators may deliberately weaponize agents for scams, harassment, or cyber attacks. In many cases, these agents are powered by vendor-hosted models, a dependency that holds even for sophisticated adversaries such as state actors conducting cyber operations. In either case, affected parties can observe the behavior but cannot notify the responsible operator, stop the session, or identify the account for investigation. We formalize this gap as the problem of agent attribution: linking an observed agent interaction to the responsible account at the hosting vendor. To our knowledge, this is the first work to define the problem and present a practical solution. Our protocol is canary-based: an authorized party injects a canary into the agent's interaction stream, and the vendor searches a narrow window of session logs to recover the originating session and account. Simple canaries suffice in non-adversarial settings. For adversarial operators who filter or paraphrase incoming content, we develop robust canary constructions that cannot be suppressed without degrading the agent's own task performance, yielding a formal asymmetry in the defender's favor. We evaluate a variety of scenarios including real-world agents and show that our attribution method is reliable, robust, and scalable for vendor-side deployment.
- Abstract(参考訳): AIエージェントは、世界中で自律的に行動するためにますますデプロイされているが、それを展開したアカウントに有害なエージェントをトレースする信頼できる方法はまだ存在しない。
悪質なオペレータは、詐欺、ハラスメント、サイバー攻撃のエージェントを故意に武器化する。
多くの場合、これらのエージェントはベンダーがホストするモデルによって駆動される。
いずれの場合も、影響を受けた当事者は行動を観察しますが、責任あるオペレータに通知したり、セッションを止めたり、調査の会計を特定できないのです。
我々は,このギャップをエージェント帰属の問題として,ホストベンダの責任アカウントと観察されたエージェントのインタラクションをリンクすることとして定式化する。
私たちの知る限りでは、この問題を定義し、実用的な解決策を提示する最初の試みである。
認証された当事者がエージェントのインタラクションストリームにカナリアを注入し、ベンダーがセッションログの狭いウィンドウを検索して、元のセッションとアカウントを復元する。
単純なカナリアは非敵の設定で十分です。
入力内容のフィルタリングやパラフレーズ化を行う逆作用素に対しては,エージェントのタスク性能を低下させることなく抑制できないロバストなカナリア構造を開発し,ディフェンダーの好意に公式な非対称性をもたらす。
実世界のエージェントを含むさまざまなシナリオを評価し、当社の属性メソッドがベンダー側のデプロイメントに信頼性、堅牢、スケーラブルであることを示します。
関連論文リスト
- Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces [5.370915507935483]
エージェントのアクションとインタラクションのタイミングは、受動的JavaScriptトラッカーによってキャプチャされ、F1が最大96%の基盤モデルを特定するのに十分であることを示す。
私たちはハーネスとラベル付きエージェントトレースのコーパスをリリースします。
論文 参考訳(メタデータ) (2026-05-14T12:55:19Z) - ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection [28.414099578635373]
AgentLureは、コンテキスト依存タスクとコンテキスト認識インジェクション攻撃をキャプチャするベンチマークである。
この制限に対処するため,我々は,LDMエージェントの事前判定監査を実施する防衛機構であるARGUSを提案する。
論文 参考訳(メタデータ) (2026-05-05T05:37:00Z) - Auditing and Controlling AI Agent Actions in Spreadsheets [9.249091427192786]
AIエージェントは、開始から終了まで自律的に洗練された多段階の知識ワークを実行することができる。
ユーザがアウトプットを受け取るまでには、すべての基本的な決定は、その関与なしにすでに行われています。
我々は、監査可能な制御可能なアクションに実行を分解するスプレッドシートAIエージェントであるPistaを紹介する。
論文 参考訳(メタデータ) (2026-04-22T00:32:35Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。