Fugu-MT 論文翻訳(概要): Foresight Optimization for Strategic Reasoning in Large Language Models

論文の概要: Foresight Optimization for Strategic Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2604.13592v2
Date: Thu, 16 Apr 2026 06:54:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 16:09:14.197007
Title: Foresight Optimization for Strategic Reasoning in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるストラテジック推論の予測最適化
Authors: Jiashuo Wang, Jiawen Duan, Jian Wang, Kaitao Song, Chunpu Xu, Johnny K. W. Ho, Fenggang Yu, Wenjie Li, Johan F. Hoorn,
Abstract要約: 我々は、大規模言語モデル(LLM)における戦略的推論を強化するために、フォレストポリシー最適化(FoPO)を導入する。 FoPOは、対立するモデリング原則をポリシー最適化に統合することで、自己利益とそれに対応する影響の両方を明確に考慮することができる。実験により、FoPOは様々な大きさと起源のLSMをまたいだ戦略的推論を著しく向上させることが示された。
参考スコア（独自算出の注目度）: 24.13855510359357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning capabilities in large language models (LLMs) have generally advanced significantly. However, it is still challenging for existing reasoning-based LLMs to perform effective decision-making abilities in multi-agent environments, due to the absence of explicit foresight modeling. To this end, strategic reasoning, the most fundamental capability to anticipate the counterpart's behaviors and foresee its possible future actions, has been introduced to alleviate the above issues. Strategic reasoning is fundamental to effective decision-making in multi-agent environments, yet existing reasoning enhancement methods for LLMs do not explicitly capture its foresight nature. In this work, we introduce Foresight Policy Optimization (FoPO) to enhance strategic reasoning in LLMs, which integrates opponent modeling principles into policy optimization, thereby enabling explicit consideration of both self-interest and counterpart influence. Specifically, we construct two curated datasets, namely Cooperative RSA and Competitive Taboo, equipped with well-designed rules and moderate difficulty to facilitate a systematic investigation of FoPO in a self-play framework. Our experiments demonstrate that FoPO significantly enhances strategic reasoning across LLMs of varying sizes and origins. Moreover, models trained with FoPO exhibit strong generalization to out-of-domain strategic scenarios, substantially outperforming standard LLM reasoning optimization baselines.
Abstract（参考訳）: 大規模言語モデル(LLM)における推論能力は一般的に著しく進歩している。しかし,多エージェント環境では,明示的なフォレストモデリングが欠如しているため,既存の推論に基づくLCMが効果的な意思決定能力を実現することは依然として困難である。この目的のために、戦略的推論は、相手の行動を予想し、将来の行動を予見する最も基本的な能力であり、上記の問題を緩和するために導入された。戦略推論は, マルチエージェント環境における効果的な意思決定に基本的だが, LLMの既存の推論強化手法は, 目に見える性質を明示的に捉えていない。本研究では,LLMにおける戦略的推論を強化するために,フォレストポリシー最適化(FoPO)を導入し,その手法を政策最適化に組み込むことにより,利害関係と利害関係の影響の明確化を可能にする。具体的には、協調RSAと競合タブーという2つのキュレートされたデータセットを構築し、適切に設計されたルールと適度な難しさを備え、セルフプレイフレームワークにおけるFoPOの体系的な調査を容易にする。実験により,FoPOは様々なサイズと起源のLSMをまたいだ戦略的推論を著しく向上することが示された。さらに、FoPOで訓練されたモデルは、ドメイン外の戦略的シナリオに対して強力な一般化を示し、標準LLM推論の最適化基準よりも大幅に優れている。

論文の概要: Foresight Optimization for Strategic Reasoning in Large Language Models

関連論文リスト