論文の概要: LLM Wardens: Mitigating Adversarial Persuasion with Third-Party Conversational Oversight
- arxiv url: http://arxiv.org/abs/2605.08321v1
- Date: Fri, 08 May 2026 16:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.564859
- Title: LLM Wardens: Mitigating Adversarial Persuasion with Third-Party Conversational Oversight
- Title(参考訳): LLM Wardens: 第三者の会話監視による対立的説得の軽減
- Authors: Lennart Wachowiak, Scott D. Blain, David Williams-King, Samuele Marro,
- Abstract要約: 隠れた目標を持つ敵のLSMは、ユーザの決定を65.4%に抑えることに成功している。
次に,人間とAIのインタラクショントレースをリアルタイムで監視し,ユーザに対して非拘束的かつプライベートなアドバイザリを発行する第2のLCMを導入する。
これらの結果のメカニズムを解明するため、14の意思決定シナリオにまたがるシミュレーションベンチマークであるCOAX-Benchをリリースする。
- 参考スコア(独自算出の注目度): 6.508925629329849
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs are increasingly capable of persuasion, which raises the question of how to protect users against manipulation. In a preregistered user study (N=120) across four decision-making scenarios, we find that an adversarial LLM with a hidden goal succeeds in steering users' decisions 65.4% of the time. We then introduce a "warden" model: a secondary LLM that monitors the human-AI interaction trace in real time and issues non-binding, private advisories to the user when it detects manipulation. Adding a warden more than halves the adversary's success rate to 30.4%, with a much smaller (8.6 percentage points) reduction for genuine interactions. To probe the mechanism behind these results, we release COAX-Bench, a simulation benchmark spanning 14 decision-making scenarios, including hiring, voting, and file access. Across 16,212 simulated multi-agent interactions, capable adversarial LLMs achieve their hidden goals in 34.7% of cases, which warden models reduce to 12.3%. Notably, even warden models substantially weaker than the adversary they oversee provide meaningful protection, suggesting a path for scalable oversight of more capable models.
- Abstract(参考訳): LLMはますます説得力があり、ユーザーを操作から守る方法について疑問が持ち上がる。
4つの意思決定シナリオを対象とした事前登録されたユーザスタディ(N=120)では、隠れた目標を持つ敵のLDMが65.4%の時間をユーザの決定を操ることに成功した。
次に、人間とAIのインタラクショントレースをリアルタイムで監視し、操作を検出すると、ユーザに対して非結合でプライベートなアドバイザリを発行する、第2のLLMモデルを導入する。
敵の勝利率は30.4%に半減し、真の相互作用はより少ない(8.6%)。
これらの結果のメカニズムを調査するため,採用,投票,ファイルアクセスを含む14の意思決定シナリオにまたがるシミュレーションベンチマークであるCOAX-Benchをリリースする。
16,212人を超えるマルチエージェントの相互作用をシミュレーションし、敵のLLMは34.7%のケースで隠れた目標を達成する。
特に、警告されたモデルでさえ、彼らが監督する敵よりもかなり弱く、意味のある保護を提供し、より有能なモデルのスケーラブルな監視の道のりを示唆している。
関連論文リスト
- MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。