論文の概要: Foresight Optimization for Strategic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.13592v2
- Date: Thu, 16 Apr 2026 06:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.197007
- Title: Foresight Optimization for Strategic Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるストラテジック推論の予測最適化
- Authors: Jiashuo Wang, Jiawen Duan, Jian Wang, Kaitao Song, Chunpu Xu, Johnny K. W. Ho, Fenggang Yu, Wenjie Li, Johan F. Hoorn,
- Abstract要約: 我々は、大規模言語モデル(LLM)における戦略的推論を強化するために、フォレストポリシー最適化(FoPO)を導入する。
FoPOは、対立するモデリング原則をポリシー最適化に統合することで、自己利益とそれに対応する影響の両方を明確に考慮することができる。
実験により、FoPOは様々な大きさと起源のLSMをまたいだ戦略的推論を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 24.13855510359357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning capabilities in large language models (LLMs) have generally advanced significantly. However, it is still challenging for existing reasoning-based LLMs to perform effective decision-making abilities in multi-agent environments, due to the absence of explicit foresight modeling. To this end, strategic reasoning, the most fundamental capability to anticipate the counterpart's behaviors and foresee its possible future actions, has been introduced to alleviate the above issues. Strategic reasoning is fundamental to effective decision-making in multi-agent environments, yet existing reasoning enhancement methods for LLMs do not explicitly capture its foresight nature. In this work, we introduce Foresight Policy Optimization (FoPO) to enhance strategic reasoning in LLMs, which integrates opponent modeling principles into policy optimization, thereby enabling explicit consideration of both self-interest and counterpart influence. Specifically, we construct two curated datasets, namely Cooperative RSA and Competitive Taboo, equipped with well-designed rules and moderate difficulty to facilitate a systematic investigation of FoPO in a self-play framework. Our experiments demonstrate that FoPO significantly enhances strategic reasoning across LLMs of varying sizes and origins. Moreover, models trained with FoPO exhibit strong generalization to out-of-domain strategic scenarios, substantially outperforming standard LLM reasoning optimization baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論能力は一般的に著しく進歩している。
しかし,多エージェント環境では,明示的なフォレストモデリングが欠如しているため,既存の推論に基づくLCMが効果的な意思決定能力を実現することは依然として困難である。
この目的のために、戦略的推論は、相手の行動を予想し、将来の行動を予見する最も基本的な能力であり、上記の問題を緩和するために導入された。
戦略推論は, マルチエージェント環境における効果的な意思決定に基本的だが, LLMの既存の推論強化手法は, 目に見える性質を明示的に捉えていない。
本研究では,LLMにおける戦略的推論を強化するために,フォレストポリシー最適化(FoPO)を導入し,その手法を政策最適化に組み込むことにより,利害関係と利害関係の影響の明確化を可能にする。
具体的には、協調RSAと競合タブーという2つのキュレートされたデータセットを構築し、適切に設計されたルールと適度な難しさを備え、セルフプレイフレームワークにおけるFoPOの体系的な調査を容易にする。
実験により,FoPOは様々なサイズと起源のLSMをまたいだ戦略的推論を著しく向上することが示された。
さらに、FoPOで訓練されたモデルは、ドメイン外の戦略的シナリオに対して強力な一般化を示し、標準LLM推論の最適化基準よりも大幅に優れている。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。