Fugu-MT 論文翻訳(概要): EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

論文の概要: EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.12486v2
Date: Fri, 14 Mar 2025 13:13:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 15:33:20.45455
Title: EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning
Title（参考訳）: EPO:強化学習によるLLMの戦略的推論のための明示的ポリシー最適化
Authors: Xiaoqian Liu, Ke Wang, Yongbin Li, Yuchuan Wu, Wentao Ma, Aobo Kong, Fei Huang, Jianbin Jiao, Junge Zhang,
Abstract要約: 戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
参考スコア（独自算出の注目度）: 69.55982246413046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown impressive reasoning capabilities in well-defined problems with clear solutions, such as mathematics and coding. However, they still struggle with complex real-world scenarios like business negotiations, which require strategic reasoning-an ability to navigate dynamic environments and align long-term goals amidst uncertainty. Existing methods for strategic reasoning face challenges in adaptability, scalability, and transferring strategies to new contexts. To address these issues, we propose explicit policy optimization (EPO) for strategic reasoning, featuring an LLM that provides strategies in open-ended action space and can be plugged into arbitrary LLM agents to motivate goal-directed behavior. To improve adaptability and policy transferability, we train the strategic reasoning model via multi-turn reinforcement learning (RL) using process rewards and iterative self-play, without supervised fine-tuning (SFT) as a preliminary step. Experiments across social and physical domains demonstrate EPO's ability of long-term goal alignment through enhanced strategic reasoning, achieving state-of-the-art performance on social dialogue and web navigation tasks. Our findings reveal various collaborative reasoning mechanisms emergent in EPO and its effectiveness in generating novel strategies, underscoring its potential for strategic reasoning in real-world applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数学やコーディングといった明確な解で明確に定義された問題において、印象的な推論能力を示している。しかし、ビジネス交渉のような複雑な現実のシナリオでは、動的環境をナビゲートし、不確実性の中で長期的な目標を調整できる戦略的推論能力を必要とする。戦略推論のための既存の方法は、適応性、スケーラビリティ、戦略を新しいコンテキストに移行する際の課題に直面します。これらの問題に対処するため、我々は、オープンエンドアクション空間における戦略を提供するLLMを特徴とする戦略推論のための明示的なポリシー最適化(EPO)を提案し、目標指向の振る舞いを動機付けるために任意のLLMエージェントにプラグインできる。適応性と政策伝達性を向上させるため,プロセス報酬と反復的な自己プレーを用いたマルチターン強化学習(RL)による戦略推論モデルを,予備的なステップとして微調整(SFT)を監督せずに訓練する。社会的および物理的領域にわたる実験は、EPOが戦略的推論を強化し、社会的対話とWebナビゲーションタスクにおける最先端のパフォーマンスを達成することによって、長期的なゴールアライメントの能力を示す。本研究は, EPOにおける様々な協調推論機構とその新規戦略の創出における有効性を明らかにし, 実世界の応用における戦略推論の可能性を明らかにするものである。

関連論文リスト

WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models [28.28739884703072]
本稿では,WGSR-Benchについて紹介する。WGSR-BenchはLarge Language Models (LLMs) の最初の戦略推論ベンチマークであり,WGSR-Benchをその評価環境として利用する。我々は,戦略的推論の主要な能力を評価するために,環境意識,対人リスクモデリング,政策生成という3つの中核的課題に関するテストサンプルを設計する。
論文参考訳（メタデータ） (2025-06-12T01:16:34Z)
Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文参考訳（メタデータ） (2025-05-13T11:41:10Z)
Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文参考訳（メタデータ） (2025-03-19T22:48:20Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making [43.734386326024016]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。本稿では,その戦略的意思決定能力を高めるため,メモリと特殊なツールを備えた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-25T23:25:10Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Strength Lies in Differences! Improving Strategy Planning for Non-collaborative Dialogues via Diversified User Simulation [69.5677514160986]
本研究では,多様なユーザとの戦略的対話に携わる非協力的対話エージェントについて検討する。これは既存の対話エージェントに2つの大きな課題をもたらす。本稿では,ユーザ認識型戦略計画モジュールと人口ベーストレーニングパラダイムを取り入れた,適切な戦略計画の能力を高めるためのTripを提案する。
論文参考訳（メタデータ） (2024-03-11T14:38:16Z)
K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T16:07:05Z)
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文参考訳（メタデータ） (2023-11-01T03:20:16Z)
Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文参考訳（メタデータ） (2023-05-30T16:09:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。