論文の概要: Expanding LLM Agent Boundaries with Strategy-Guided Exploration
- arxiv url: http://arxiv.org/abs/2603.02045v1
- Date: Mon, 02 Mar 2026 16:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.972652
- Title: Expanding LLM Agent Boundaries with Strategy-Guided Exploration
- Title(参考訳): 戦略誘導探査によるLLMエージェント境界の拡張
- Authors: Andrew Szot, Michael Kirchhof, Omar Attia, Alexander Toshev,
- Abstract要約: 強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
- 参考スコア(独自算出の注目度): 51.98616048282804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated notable success in post-training large language models (LLMs) as agents for tasks such as computer use, tool calling, and coding. However, exploration remains a central challenge in RL for LLM agents, especially as they operate in language-action spaces with complex observations and sparse outcome rewards. In this work, we address exploration for LLM agents by leveraging the ability of LLMs to plan and reason in language about the environment to shift exploration from low-level actions to higher-level language strategies. We thus propose Strategy-Guided Exploration (SGE), which first generates a concise natural-language strategy that describes what to do to make progress toward the goal, and then generates environment actions conditioned on that strategy. By exploring in the space of strategies rather than the space of actions, SGE induces structured and diverse exploration that targets different environment outcomes. To increase strategy diversity during RL, SGE introduces mixed-temperature sampling, which explores diverse strategies in parallel, along with a strategy reflection process that grounds strategy generation on the outcomes of previous strategies in the environment. Across UI interaction, tool-calling, coding, and embodied agent environments, SGE consistently outperforms exploration-focused RL baselines, improving both learning efficiency and final performance. We show that SGE enables the agent to learn to solve tasks too difficult for the base model.
- Abstract(参考訳): 強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
しかしながら、LLMエージェントのRLにおいては、特に複雑な観察と粗末な結果の報酬を伴う言語行動空間において、探索は依然として中心的な課題である。
本研究では,低レベルな行動から高レベルな言語戦略に移行するために,LLMの言語計画と推論能力を活用することで,LLMエージェントの探索に対処する。
そこで我々は,まず目標に向かって進むために何をすべきかを記述した簡潔な自然言語戦略を作成した上で,その戦略を前提とした環境行動を生成するSGE(Strategy-Guided Exploration)を提案する。
アクションの空間ではなく戦略の空間を探索することで、SGEは異なる環境結果をターゲットにした構造化された多様な探索を誘導する。
RL中における戦略の多様性を高めるため、SGEは様々な戦略を並列に探索する混合温度サンプリングと、環境における以前の戦略の結果に基づいて戦略生成を行う戦略リフレクションプロセスを導入している。
UIインタラクション、ツールコール、コーディング、エンボディされたエージェント環境を通じて、SGEは探索中心のRLベースラインを一貫して上回り、学習効率と最終的なパフォーマンスの両方を改善している。
本稿では,SGEによってエージェントがベースモデルに難解なタスクを解くことができることを示す。
関連論文リスト
- MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation [11.222602737031101]
本稿では,LLMエージェントを戦略的探索と活用に活用するメタRLフレームワークであるMAGEを提案する。
MAGEは、インタラクション履歴とリフレクションをコンテキストウィンドウに統合するマルチエピソードトレーニングシステムを利用している。
実験結果から,MAGEは探索作業と搾取作業の両方において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-03-04T03:14:37Z) - Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations [0.0]
大規模言語モデル(LLM)は、手続き的知識とテキスト事前学習による推論能力を持っている。
拡張観測空間を通してLLM生成アクションレコメンデーションを提供するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:54:31Z) - Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-09-30T11:12:01Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - SAGE: Strategy-Adaptive Generation Engine for Query Rewriting [8.941793732446856]
本稿では,SAGE(Strategy-Adaptive Generation Engine)について紹介する。
SAGEは、最先端のNDCG@10の結果を新たに達成すると同時に、魅力的な創発的行動も明らかにする。
この結果から, 戦略誘導型RLは, よりスケーラブルで, 効率的で, 解釈可能なパラダイムを, 次世代の堅牢な情報検索システム開発に役立てることが示唆された。
論文 参考訳(メタデータ) (2025-06-24T16:50:51Z) - Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。
オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。
オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文 参考訳(メタデータ) (2025-05-13T11:41:10Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。