論文の概要: ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective
- arxiv url: http://arxiv.org/abs/2509.21134v1
- Date: Thu, 25 Sep 2025 13:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.931191
- Title: ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective
- Title(参考訳): ToMPO:マルチエージェントの視点からのLSM戦略決定の訓練
- Authors: Yiwen Zhang, Ziang Chen, Fanqi Kong, Yizhe Huang, Xue Feng,
- Abstract要約: 大規模言語モデル(LLM)は複雑なシナリオでの意思決定に使われてきた。
本稿では,他の個別戦略の認識とゲーム状況の傾向を最適化するToMPOアルゴリズムを提案する。
ToMPOアルゴリズムは、モデル出力のコンプライアンスと協調的な結果の点でGRPO法を35%上回る。
- 参考スコア(独自算出の注目度): 16.275962506416064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been used to make decisions in complex scenarios, where they need models to think deeply, reason logically, and decide wisely. Many existing studies focus solely on multi-round conversations in social tasks or simulated environments, neglecting the various types of decisions and their interdependence. Current reinforcement learning methods struggle to consider the strategies of others during training. To address these issues, we first define a strategic decision-making problem that includes two types of decisions and their temporal dependencies. Furthermore, we propose **T**heory **o**f **M**ind **P**olicy **O**ptimization **(ToMPO)** algorithm to optimize the perception of other individual strategies and the game situation trends. Compared to the Group Relative Policy Optimization (GRPO) algorithm, ToMPO enhances the LLM's strategic decision-making mainly by: 1) generating rollouts based on reasoning the strategies of other individuals, 2) estimating advantages at both the graph-level and sample-level, and 3) balancing global and partial rewards. The ToMPO algorithm outperforms the GRPO method by 35% in terms of model output compliance and cooperative outcomes. Additionally, when compared to models with parameter sizes 100 times larger, it shows an 18% improvement. This demonstrates the effectiveness of the ToMPO algorithm in enhancing the model's strategic decision-making capabilities.
- Abstract(参考訳): 大きな言語モデル(LLM)は複雑なシナリオで決定するために使われてきた。
既存の多くの研究は、社会的タスクやシミュレートされた環境におけるマルチラウンド会話にのみ焦点をあてており、様々なタイプの意思決定と相互依存を無視している。
現在の強化学習手法は、訓練中に他人の戦略を考えるのに苦労している。
これらの問題に対処するために、まず2種類の意思決定と時間的依存関係を含む戦略的意思決定問題を定義します。
さらに,*T**heory **o*f **M**ind **P**olicy **O**ptimization **(ToMPO)**アルゴリズムを提案する。
Group Relative Policy Optimization (GRPO) アルゴリズムと比較して,ToMPO は LLM の戦略決定を主に下記のように強化する。
1)他者の戦略の推論に基づくロールアウトの生成
2)グラフレベルとサンプルレベルの両方の利点を推定する。
3)グローバルと部分的な報酬のバランスをとること。
ToMPOアルゴリズムは、モデル出力のコンプライアンスと協調的な結果の点でGRPO法を35%上回る。
さらに、パラメータサイズが100倍のモデルと比較すると、18%改善されている。
これは、モデルの戦略的意思決定能力を高める上で、ToMPOアルゴリズムの有効性を示す。
関連論文リスト
- Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement
Learning with Contextual Information [4.42532447134568]
本研究では,文脈情報による問題を克服するために2つの手法を用いる。
量的市場における戦略的トレーディングを検討するため、我々はCPPI(Constant proportion portfolio Insurance)と呼ばれる初期の金融トレーディング戦略をDDPG(Deep Deterministic Policy gradient)に統合した。
実験の結果,両手法が強化学習の進行を加速し,最適解が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-01T11:25:20Z) - A Machine Learning Approach to Two-Stage Adaptive Robust Optimization [6.943816076962257]
本稿では,2段階線形適応ロバスト最適化問題の解法として,機械学習に基づくアプローチを提案する。
私たちは、最適な今と現在の決定、最適な今と現在の決定に関連する最悪のシナリオ、そして最適な待ちと見る決定をエンコードします。
私たちは、現在と現在の決定のための高品質な戦略、最適な今と現在の決定に関連する最悪のシナリオ、待機と見る決定を予測できる機械学習モデルをトレーニングします。
論文 参考訳(メタデータ) (2023-07-23T19:23:06Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。