論文の概要: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
- arxiv url: http://arxiv.org/abs/2510.05592v1
- Date: Tue, 07 Oct 2025 05:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.112636
- Title: In-the-Flow Agentic System Optimization for Effective Planning and Tool Use
- Title(参考訳): 効率的な計画とツール利用のためのインザフローエージェントシステム最適化
- Authors: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu,
- Abstract要約: AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 73.72524040856052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outcome-driven reinforcement learning has advanced reasoning in large language models (LLMs), but prevailing tool-augmented approaches train a single, monolithic policy that interleaves thoughts and tool calls under full context; this scales poorly with long horizons and diverse tools and generalizes weakly to new scenarios. Agentic systems offer a promising alternative by decomposing work across specialized modules, yet most remain training-free or rely on offline training decoupled from the live dynamics of multi-turn interaction. We introduce AgentFlow, a trainable, in-the-flow agentic framework that coordinates four modules (planner, executor, verifier, generator) through an evolving memory and directly optimizes its planner inside the multi-turn loop. To train on-policy in live environments, we propose Flow-based Group Refined Policy Optimization (Flow-GRPO), which tackles long-horizon, sparse-reward credit assignment by converting multi-turn optimization into a sequence of tractable single-turn policy updates. It broadcasts a single, verifiable trajectory-level outcome to every turn to align local planner decisions with global success and stabilizes learning with group-normalized advantages. Across ten benchmarks, AgentFlow with a 7B-scale backbone outperforms top-performing baselines with average accuracy gains of 14.9% on search, 14.0% on agentic, 14.5% on mathematical, and 4.1% on scientific tasks, even surpassing larger proprietary models like GPT-4o. Further analyses confirm the benefits of in-the-flow optimization, showing improved planning, enhanced tool-calling reliability, and positive scaling with model size and reasoning turns.
- Abstract(参考訳): アウトカム駆動強化学習は、大規模言語モデル(LLM)において先進的な推論を持つが、一般的なツール強化アプローチは、完全なコンテキスト下での思考とツールコールをインターリーブする単一のモノリシックなポリシーをトレーニングする。
エージェントシステムは、特殊なモジュール間で作業を分解することで、有望な代替手段を提供するが、ほとんどはトレーニングなしで、あるいはマルチターンインタラクションのライブダイナミクスから切り離されたオフライントレーニングに依存している。
AgentFlowは4つのモジュール(プランナ、実行子、検証子、ジェネレータ)を、進化するメモリを介して調整し、マルチターンループ内で直接プランナを最適化する、トレーニング可能なインザフローエージェントフレームワークである。
本研究では,複数ターンの最適化を抽出可能な単一ターンポリシー更新のシーケンスに変換することで,長期的かつスパースな信用割当に対処するフローベースグループ精錬政策最適化(Flow-GRPO)を提案する。
ローカルプランナーの決定をグローバルな成功と整合させ、グループ正規化による学習を安定化させるため、各ターンに検証可能な軌道レベルの結果を放送する。
10つのベンチマークで、AgentFlowの7Bスケールのバックボーンは、検索で平均14.9%、エージェントで14.0%、数学で14.5%、科学的なタスクで4.1%、GPT-4oのようなより大きなプロプライエタリなモデルを上回るパフォーマンスのベースラインを上回っている。
さらに、フロー内最適化の利点を確認し、計画の改善、ツールコールの信頼性の向上、モデルサイズと推論のターンによる正のスケーリングを示す。
関連論文リスト
- Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。
EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文 参考訳(メタデータ) (2025-09-15T20:36:19Z) - Step-wise Policy for Rare-tool Knowledge (SPaRK): Offline RL that Drives Diverse Tool Use in LLMs [0.0]
ラアツール知識のためのステップワイドポリシー(SPaRK)は、さまざまなツールの使用パターンを調べるために、大規模な言語モデルを教える。
回答の品質とツールの多様性を同時に最適化する双対目的報酬システムを導入する。
論文 参考訳(メタデータ) (2025-07-15T14:44:29Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors [104.5401871607713]
本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。
W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。
経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
論文 参考訳(メタデータ) (2025-04-07T07:27:31Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。