論文の概要: Communication Enhances LLMs' Stability in Strategic Thinking
- arxiv url: http://arxiv.org/abs/2602.06081v1
- Date: Wed, 04 Feb 2026 17:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.032395
- Title: Communication Enhances LLMs' Stability in Strategic Thinking
- Title(参考訳): 戦略的思考におけるLLMの安定性を高めるコミュニケーション
- Authors: Nunzio Lore, Babak Heydari,
- Abstract要約: 安価でコストのかかるプレプレイメッセージが戦略的安定性に影響を及ぼすかどうかを評価する。
研究対象のモデル-コンテキストペアリングの大部分に対して,トラジェクティブノイズの連続的な低減を実証する。
コミュニケーションは有害な不安定性をもたらすことはめったにないが、いくつかの文脈固有の例外を文書化し、コミュニケーションが安定性を損なう限られた領域を特定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit pronounced context-dependent variability that undermines predictable multi-agent behavior in tasks requiring strategic thinking. Focusing on models that range from 7 to 9 billion parameters in size engaged in a ten-round repeated Prisoner's Dilemma, we evaluate whether short, costless pre-play messages emulating the cheap-talk paradigm affect strategic stability. Our analysis uses simulation-level bootstrap resampling and nonparametric inference to compare cooperation trajectories fitted with LOWESS regression across both the messaging and the no-messaging condition. We demonstrate consistent reductions in trajectory noise across a majority of the model-context pairings being studied. The stabilizing effect persists across multiple prompt variants and decoding regimes, though its magnitude depends on model choice and contextual framing, with models displaying higher baseline volatility gaining the most. While communication rarely produces harmful instability, we document a few context-specific exceptions and identify the limited domains in which communication harms stability. These findings position cheap-talk style communication as a low-cost, practical tool for improving the predictability and reliability of strategic behavior in multi-agent LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はしばしば、戦略的思考を必要とするタスクにおいて予測可能なマルチエージェントの振る舞いを損なう、文脈依存の変動を示す。
連続する10ラウンドの囚人のジレンマに70億から90億のパラメータが関与するモデルに焦点をあてて、安価なトークパラダイムを模した短くてコストのかかるプレプレイメッセージが戦略的安定性に影響を及ぼすかどうかを評価する。
シミュレーションレベルのブートストラップ再サンプリングと非パラメトリック推論を用いて、メッセージと非メッセージ条件の両方でLOWESSレグレッションに適合した協調トラジェクトリを比較した。
研究対象のモデル-コンテキストペアリングの大部分に対して,トラジェクティブノイズの連続的な低減を実証する。
安定化効果は、モデル選択と文脈フレーミングに依存し、ベースラインのボラティリティが高いモデルが最も高くなっています。
コミュニケーションは有害な不安定性をもたらすことはめったにないが、いくつかの文脈固有の例外を文書化し、コミュニケーションが安定性を損なう限られた領域を特定する。
これらの知見は,マルチエージェントLPMシステムにおける戦略的行動の予測可能性と信頼性を向上させるための,低コストで実用的なツールとして,安価なトークスタイルのコミュニケーションを位置づけている。
関連論文リスト
- Mitigating Conversational Inertia in Multi-Turn Agents [47.35031006899519]
我々は,従来の応答に対して,モデルが強い対角的注意を示す現象である会話慣性を特定する。
本研究では,高慣性応答よりも低慣性応答を優先するために,モデル選好を校正するコンテキスト選好学習を提案する。
論文 参考訳(メタデータ) (2026-02-03T15:47:32Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds [11.373585987937913]
本研究では,内部パラメータの変更や複雑な摂動に頼らずにモデル安定性を評価する統一的局所(サンプルレベル)ロバストネスフレームワーク(SALMAN)を提案する。
提案手法の中心となるのがDMD(Distance Mapping Distortion)尺度である。
攻撃効率とロバストトレーニングの大幅な向上を示すことによって、我々は、トランスフォーマーベースのNLPシステムの信頼性を向上させるための実用的、モデルに依存しないツールとして、我々のフレームワークを位置づける。
論文 参考訳(メタデータ) (2025-08-23T02:50:55Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。