論文の概要: DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
- arxiv url: http://arxiv.org/abs/2506.09655v1
- Date: Wed, 11 Jun 2025 12:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.932051
- Title: DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
- Title(参考訳): DipLLM: 外交戦略決定のための微調整LDM
- Authors: Kaixuan Xu, Jiajun Chai, Sicheng Li, Yuqian Fu, Yuanheng Zhu, Dongbin Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、AIシステムの平衡探索に代わる有望な代替手段を提供する。
外交の均衡政策を学習する微調整LDMエージェントDipLLMを提案する。
本研究は,マルチプレイヤーゲームにおける複雑な戦略決定処理のための微調整LDMの可能性を示すものである。
- 参考スコア(独自算出の注目度): 15.472887575322133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diplomacy is a complex multiplayer game that requires both cooperation and competition, posing significant challenges for AI systems. Traditional methods rely on equilibrium search to generate extensive game data for training, which demands substantial computational resources. Large Language Models (LLMs) offer a promising alternative, leveraging pre-trained knowledge to achieve strong performance with relatively small-scale fine-tuning. However, applying LLMs to Diplomacy remains challenging due to the exponential growth of possible action combinations and the intricate strategic interactions among players. To address this challenge, we propose DipLLM, a fine-tuned LLM-based agent that learns equilibrium policies for Diplomacy. DipLLM employs an autoregressive factorization framework to simplify the complex task of multi-unit action assignment into a sequence of unit-level decisions. By defining an equilibrium policy within this framework as the learning objective, we fine-tune the model using only 1.5% of the data required by the state-of-the-art Cicero model, surpassing its performance. Our results demonstrate the potential of fine-tuned LLMs for tackling complex strategic decision-making in multiplayer games.
- Abstract(参考訳): 外交は、協力と競争の両方を必要とする複雑なマルチプレイヤーゲームであり、AIシステムにとって重要な課題である。
伝統的な手法は、訓練のための広範なゲームデータを生成するために平衡探索に依存しており、かなりの計算資源を必要とする。
大規模言語モデル(LLM)は、訓練済みの知識を活用して、比較的小規模な微調整で高いパフォーマンスを達成する、有望な代替手段を提供する。
しかし、LLMを外交に適用することは、考えられるアクションの組み合わせの指数的な成長と、プレイヤー間の複雑な戦略的相互作用のために、依然として困難なままである。
この課題に対処するために、外交の均衡政策を学習する微調整LDMベースのエージェントであるDipLLMを提案する。
DipLLMは、マルチユニットアクション割り当ての複雑なタスクをユニットレベルの決定のシーケンスに単純化するために、自己回帰的分解フレームワークを使用している。
このフレームワーク内での均衡ポリシを学習目標として定義することにより、最先端のCiceroモデルに必要なデータのわずか1.5%をモデルに微調整し、その性能を上回ります。
本研究は,マルチプレイヤーゲームにおける複雑な戦略決定処理のための微調整LDMの可能性を示すものである。
関連論文リスト
- Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。
高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文 参考訳(メタデータ) (2025-03-19T22:48:20Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。