論文の概要: Cheap Talk, Empty Promise: Frontier LLMs easily break public promises for self-interest
- arxiv url: http://arxiv.org/abs/2604.04782v1
- Date: Mon, 06 Apr 2026 15:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.259108
- Title: Cheap Talk, Empty Promise: Frontier LLMs easily break public promises for self-interest
- Title(参考訳): チェップトーク、エプティ約束:フロンティアのLLMは自己利益の公約を破る
- Authors: Jerick Shi, Terry Jingcheng Zhang, Zhijing Jin, Vincent Conitzer,
- Abstract要約: 単発のノーマルフォームゲームにおいて、公に発表されたアクションから逸脱した偽装について検討する。
偏差タイプごとにすべての機会を特定し、エージェントがそれらを利用する頻度を測定する。
- 参考スコア(独自算出の注目度): 32.09232866919422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed as autonomous agents in multi-agent settings where they communicate intentions and take consequential actions with limited human oversight. A critical safety question is whether agents that publicly commit to actions break those promises when they can privately deviate, and what the consequences are for both themselves and the collective. We study deception as a deviation from a publicly announced action in one-shot normal-form games, classifying each deviation by its effect on individual payoff and collective welfare into four categories: win-win, selfish, altruistic, and sabotaging. By exhaustively enumerating announcement profiles across six canonical games, nine frontier models, and varying group sizes, we identify all opportunities for each deviation type and measure how often agents exploit them. Across all settings, agents deviate from promises in approximately 56.6% of scenarios, but the character of deception varies substantially across models even at similar overall rates. Most critically, for the majority of the models, promise-breaking occurs without verbalized awareness of the fact that they are breaking promises.
- Abstract(参考訳): 大規模言語モデルは、意図を伝達し、人間の監視を限定した連続的な行動をとるマルチエージェント設定において、自律的なエージェントとしてますます多くデプロイされている。
重要な安全上の疑問は、行動に公にコミットするエージェントが、プライベートに逸脱できる時にそれらの約束を破るかどうか、そして彼ら自身と集団の両方にどのような結果をもたらすかである。
単発のノーマルフォームゲームにおける公告された行動からの逸脱として、個々の報酬と集団福祉に対する影響によって、各逸脱を4つのカテゴリ(勝敗、利己的、利他的、破壊的、破壊的)に分類する。
6つの標準ゲーム、9つのフロンティアモデル、および様々なグループサイズにわたる発表プロファイルを網羅的に列挙することにより、各偏差タイプに対するすべての機会を特定し、エージェントがそれらを利用する頻度を測定する。
あらゆる設定において、エージェントは約56.6%のシナリオで約束から逸脱するが、詐欺の性格はモデルによって異なる。
最も重要なのは、ほとんどのモデルにおいて、約束を破っているという事実を言葉で認識することなく、約束を破るということです。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。