論文の概要: Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
- arxiv url: http://arxiv.org/abs/2604.11666v1
- Date: Mon, 13 Apr 2026 16:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.673564
- Title: Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
- Title(参考訳): 共に演奏する:心の理論を通して、信念のステアリングのための二重エージェントディフェンダーを学ぶ
- Authors: Hanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: 我々は、プライバシーをテーマとした新しいToMチャレンジ、ToM for Steering Beliefs (ToM-SB)を提案する。
ToM-SBを成功させるためには、攻撃者は攻撃者のToMを騙して機密情報を抽出したと信じ込ませなければならない。
Gemini3-ProやGPT-5.4のような強力なフロンティアモデルがToM-SBと戦っていることが分かりました。
私たちは、強化学習を使用してAIダブルエージェントとして機能し、愚かさとToM報酬の両方をテストするためにToM-SBのモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 66.6995270293745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.
- Abstract(参考訳): 大きな言語モデル(LLM)が対話システムを支えるエンジンとなるにつれ、対話相手の意図や状態を判断する能力(すなわち、造語理論(ToM))が、潜在的に敵対的パートナーとの安全な対話においてますます重要になる。
ToM-SB (ToM-SB for Steering Beliefs) というプライバシーをテーマとした新たなToMチャレンジを提案する。
ToM-SBを成功させるためには、攻撃者は攻撃者のToMを騙して機密情報を抽出したと信じ込ませなければならない。
Gemini3-Pro や GPT-5.4 のような強力なフロンティアモデルがToM-SBと闘い、攻撃者の信念(ToMのプロンプト)を推論するよう促されたとしても、攻撃者が部分的に攻撃者の事前知識を持つハードシナリオで騙すことがしばしば失敗する。
このギャップを埋めるために、強化学習を使用してAIダブルエージェントとして機能し、愚かさとToM報酬の両方をテストするために、ToM-SBのモデルをトレーニングする。
特に、ToMとアタッカー・フーリングの双方向的な関係は、愚かな成功に報いるだけでToMが改善され、ToMだけに報いると騙すことが改善される。
ToM-SB の成功要因として,ToM-SB の成功要因として,ToM とアタッカー・ファリングの利得がよく相関していることが判明した。
ToMと愚かな報酬の両方を組み合わせたAIダブルエージェントは、ToMがハードシナリオを推し進めるGemini3-ProとGPT-5.4を上回り、最強の愚かさとToMのパフォーマンスをもたらす。
また、ToM-SBとAI Double Agentsはより強力な攻撃者に拡張可能であることを示し、OOD設定への一般化とタスクのアップグレード性を示す。
関連論文リスト
- Safety Alignment of LMs via Non-cooperative Games [51.83432183158595]
現在のアプローチは、逐次的な敵の訓練に頼り、敵のプロンプトを生成し、それらを防御するために微調整されたLMを生成する。
我々は,アタッカーLMとディフェンダーLMの非ゼロサムゲームとしての安全性アライメントを共同でトレーニングする,異なるパラダイムを導入する。
提案手法では、ポイントワイズスコアではなくペアワイズ比較から導出される優先型報酬信号を用いて、より堅牢な監視と、報酬ハッキングの軽減を実現する。
論文 参考訳(メタデータ) (2025-12-23T22:13:14Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - The Yokai Learning Environment: Tracking Beliefs Over Space and Time [8.882575080324711]
協力型カードゲーム「妖怪」に基づく強化学習環境「妖怪学習環境(YLE)」について紹介する。
成功には、進化する信念の追跡、過去の観察の記憶、ヒントを根拠としたコミュニケーション、チームメイトとの共通基盤の維持が必要です。
現在のRLエージェントは、完全なメモリへのアクセスが与えられたとしても、YLEを解決するのに苦労している。
信念モデリングはパフォーマンスを向上させるが、エージェントは依然として、目に見えないパートナーに効果的に一般化したり、より長いゲームに対して正確な信念を形成することはできない。
論文 参考訳(メタデータ) (2025-08-17T19:42:17Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning [9.441965281943132]
プライバシ保護のための分散機械学習フレームワークであるFederated Learning(FL)は、バックドア攻撃に対して脆弱であることが示されている。
我々は、攻撃者が効果的で永続的なバックドアをグローバルモデルに注入できる、FLで初の非協調的MBA戦略であるMirageを提案する。
Mirageは様々な最先端の攻撃に優れ、既存の防衛をバイパスし、平均的なASRを97%以上達成し、900ラウンドの後に90%以上を維持している。
論文 参考訳(メタデータ) (2024-09-29T07:37:22Z) - BadMerging: Backdoor Attacks Against Model Merging [17.797688491548175]
我々は、モデルマージン(MM)用に特別に設計された最初のバックドアアタックであるBadMergingを紹介する。
BadMergingは、2段階の攻撃機構と、組み込みバックドアの堅牢性を高めるための新しい特徴補間ベースの損失を含んでいる。
実験の結果,BadMergingは様々なMMアルゴリズムに対して顕著な攻撃を行うことがわかった。
論文 参考訳(メタデータ) (2024-08-14T08:19:23Z) - CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。