論文の概要: DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
- arxiv url: http://arxiv.org/abs/2506.09655v2
- Date: Mon, 23 Jun 2025 07:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.376819
- Title: DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy
- Title(参考訳): DipLLM: 外交戦略決定のための微調整LDM
- Authors: Kaixuan Xu, Jiajun Chai, Sicheng Li, Yuqian Fu, Yuanheng Zhu, Dongbin Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、AIシステムの平衡探索に代わる有望な代替手段を提供する。
外交の均衡政策を学習する微調整LDMエージェントDipLLMを提案する。
本研究は,マルチプレイヤーゲームにおける複雑な戦略決定処理のための微調整LDMの可能性を示すものである。
- 参考スコア(独自算出の注目度): 15.472887575322133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diplomacy is a complex multiplayer game that requires both cooperation and competition, posing significant challenges for AI systems. Traditional methods rely on equilibrium search to generate extensive game data for training, which demands substantial computational resources. Large Language Models (LLMs) offer a promising alternative, leveraging pre-trained knowledge to achieve strong performance with relatively small-scale fine-tuning. However, applying LLMs to Diplomacy remains challenging due to the exponential growth of possible action combinations and the intricate strategic interactions among players. To address this challenge, we propose DipLLM, a fine-tuned LLM-based agent that learns equilibrium policies for Diplomacy. DipLLM employs an autoregressive factorization framework to simplify the complex task of multi-unit action assignment into a sequence of unit-level decisions. By defining an equilibrium policy within this framework as the learning objective, we fine-tune the model using only 1.5% of the data required by the state-of-the-art Cicero model, surpassing its performance. Our results demonstrate the potential of fine-tuned LLMs for tackling complex strategic decision-making in multiplayer games.
- Abstract(参考訳): 外交は、協力と競争の両方を必要とする複雑なマルチプレイヤーゲームであり、AIシステムにとって重要な課題である。
伝統的な手法は、訓練のための広範なゲームデータを生成するために平衡探索に依存しており、かなりの計算資源を必要とする。
大規模言語モデル(LLM)は、訓練済みの知識を活用して、比較的小規模な微調整で高いパフォーマンスを達成する、有望な代替手段を提供する。
しかし、LLMを外交に適用することは、考えられるアクションの組み合わせの指数的な成長と、プレイヤー間の複雑な戦略的相互作用のために、依然として困難なままである。
この課題に対処するために、外交の均衡政策を学習する微調整LDMベースのエージェントであるDipLLMを提案する。
DipLLMは、マルチユニットアクション割り当ての複雑なタスクをユニットレベルの決定のシーケンスに単純化するために、自己回帰的分解フレームワークを使用している。
このフレームワーク内での均衡ポリシを学習目標として定義することにより、最先端のCiceroモデルに必要なデータのわずか1.5%をモデルに微調整し、その性能を上回ります。
本研究は,マルチプレイヤーゲームにおける複雑な戦略決定処理のための微調整LDMの可能性を示すものである。
関連論文リスト
- Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming [57.44900640134789]
StackelbergゲームとしてMILP問題解決のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。
具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。
共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-05T03:16:04Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。
高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文 参考訳(メタデータ) (2025-03-19T22:48:20Z) - Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search [32.657454056329875]
大規模言語モデル(LLM)は、強力な一般化とゼロショット能力を示すが、詳細な計画と意思決定を必要とするタスクに苦労する。
両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。
本研究では,部分情報を持つ競合型マルチターンゲームのための最適戦略学習におけるSTRATEGISTの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。