論文の概要: Scheming Ability in LLM-to-LLM Strategic Interactions
- arxiv url: http://arxiv.org/abs/2510.12826v1
- Date: Sat, 11 Oct 2025 04:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.335517
- Title: Scheming Ability in LLM-to-LLM Strategic Interactions
- Title(参考訳): LLM-LLM戦略相互作用におけるスケジューリング能力
- Authors: Thao Pham,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
- 参考スコア(独自算出の注目度): 4.873362301533824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language model (LLM) agents are deployed autonomously in diverse contexts, evaluating their capacity for strategic deception becomes crucial. While recent research has examined how AI systems scheme against human developers, LLM-to-LLM scheming remains underexplored. We investigate the scheming ability and propensity of frontier LLM agents through two game-theoretic frameworks: a Cheap Talk signaling game and a Peer Evaluation adversarial game. Testing four models (GPT-4o, Gemini-2.5-pro, Claude-3.7-Sonnet, and Llama-3.3-70b), we measure scheming performance with and without explicit prompting while analyzing scheming tactics through chain-of-thought reasoning. When prompted, most models, especially Gemini-2.5-pro and Claude-3.7-Sonnet, achieved near-perfect performance. Critically, models exhibited significant scheming propensity without prompting: all models chose deception over confession in Peer Evaluation (100% rate), while models choosing to scheme in Cheap Talk succeeded at 95-100% rates. These findings highlight the need for robust evaluations using high-stakes game-theoretic scenarios in multi-agent settings.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは多様な状況で自律的にデプロイされるため、戦略的な騙しの能力を評価することが重要である。
近年の研究では、AIシステムが人間開発者に対してどのように計画するかが研究されているが、LLM-to-LLMの計画はまだ未定である。
本稿では,2つのゲーム理論的枠組み(Cheap Talkシグナリングゲームとピア評価対戦ゲーム)を通して,フロンティアLSMエージェントのスケジューリング能力と妥当性について検討する。
4つのモデル (GPT-4o, Gemini-2.5-pro, Claude-3.7-Sonnet, Llama-3.3-70b) を検証し, チェーン・オブ・シント推論によるスケジューリング手法の解析を行った。
多くのモデル、特にジェミニ2.5-プロとクロード-3.7-ソネットは、ほぼ完全な性能を達成した。
批判的に言えば、すべてのモデルがピア評価において自白よりも虚偽を選択した(100%)一方で、チープトークでのスキームを選択するモデルは95-100%のレートで成功した。
これらの結果から,マルチエージェント環境下でのゲーム理論シナリオを用いたロバストな評価の必要性が示唆された。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。
SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (2025-04-27T08:45:06Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Evaluating Language Model Agency through Negotiations [39.87262815823634]
ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。
提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。
論文 参考訳(メタデータ) (2024-01-09T13:19:37Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。