論文の概要: Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
- arxiv url: http://arxiv.org/abs/2508.07485v1
- Date: Sun, 10 Aug 2025 21:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.876736
- Title: Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
- Title(参考訳): 民主化外交 - 大規模言語モデルを評価するためのハーネス
- Authors: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson,
- Abstract要約: 本報告では,任意のローカル言語モデル(LLM)を,微調整や専門訓練を伴わずにフルプレッシャーの外交を行えるようにするための,最初の評価手法を提案する。
外交のゲーム状態の複雑さと情報密度が高いため、以前の作業ではフロンティアLSM(ファインチューニング)が必要だった。
我々のハーネスは、微調整の必要性を排除し、LLMの戦略的推論の評価を民主化し、これらの能力が広く使われているLLMからどのように自然に現れるかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 37.54766836927425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representation such that a 24B model can reliably complete matches without any fine tuning. We develop tooling to facilitate hypothesis testing and statistical analysis, and we present case studies on persuasion, aggressive playstyles, and performance across a range of models. We conduct a variety of experiments across many popular LLMs, finding the larger models perform the best, but the smaller models still play adequately. We also introduce Critical State Analysis: an experimental protocol for rapidly iterating and analyzing key moments in a game at depth. Our harness democratizes the evaluation of strategic reasoning in LLMs by eliminating the need for fine-tuning, and it provides insights into how these capabilities emerge naturally from widely used LLMs. Our code is available in the supplement and will be open sourced.
- Abstract(参考訳): 本報告では,任意のローカル言語モデル(LLM)を,微調整や専門訓練を伴わずにフルプレッシャーの外交を行えるようにするための,最初の評価手法を提案する。
外交のゲーム状態の複雑さと情報密度が高いため、以前の作業ではフロンティアLSM(ファインチューニング)が必要だった。
高い一致のばらつきと組み合わさって、これらの要因は外交を研究のために禁止した。
本研究では,テキストゲーム状態表現の最適化にデータ駆動型反復法を用い,24Bモデルが微調整をせずに確実にマッチングを完了できるようにした。
仮説テストや統計的分析を容易にするツールを開発し,様々なモデルに対する説得,攻撃的プレイスタイル,パフォーマンスについて事例研究を行った。
我々は、多くの人気のあるLCMに対して様々な実験を行い、より大きなモデルが最高の性能を発揮することを発見したが、より小さなモデルはまだ適切に機能している。
また,ゲーム中のキーモーメントを深く繰り返し解析する実験的プロトコルであるCritical State Analysisを紹介した。
我々のハーネスは、微調整の必要性を排除し、LLMにおける戦略的推論の評価を民主化し、これらの能力が広く使われているLLMからどのように自然に現れるかについての洞察を提供する。
私たちのコードはサプリメントで利用可能で、オープンソース化されます。
関連論文リスト
- Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games [16.187737674778234]
textbfbenchnameは,多種多様な現実世界のビデオゲームを対象とした大規模言語モデル(LLM)エージェントの訓練と評価を目的としたベンチマークである。
LLMの一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入する。
Orakは総合的な評価フレームワークを提供しており、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を含んでいる。
論文 参考訳(メタデータ) (2025-06-04T06:40:33Z) - Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Can Large Language Models Capture Video Game Engagement? [1.3873323883842132]
我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。
我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
論文 参考訳(メタデータ) (2025-02-05T17:14:47Z) - Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
探索に基づくプランニングにより,大規模言語モデルによるゲームプレイ能力の大幅な向上が期待できることを示す。
外部探索では,モンテカルロ木探索のロールアウトと評価を外部ゲームエンジンに呼び出しずにガイドし,内部探索では,探索の線形化木と最終的な選択をインコンテキストで生成するように訓練する。
提案手法は,探索とドメイン知識を組み合わせることで,ボードゲームに特化せず,より汎用的な応用を示唆するものである。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - Evaluating Language Model Agency through Negotiations [39.87262815823634]
ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。
提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。
論文 参考訳(メタデータ) (2024-01-09T13:19:37Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。