論文の概要: Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning
- arxiv url: http://arxiv.org/abs/2508.03018v1
- Date: Tue, 05 Aug 2025 02:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.750036
- Title: Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning
- Title(参考訳): 政策最適化を超えて:スパースリワード長期計画のためのデータキュレーションフライホイール
- Authors: Yutong Wang, Pengliang Ji, Kaixin Li, Baolong Bi, Tao Feng, Guillaume Sartoretti,
- Abstract要約: スパース環境のためのロバスト推論モデルを開発するための3段階フレームワークを提案する。
本フレームワークは,長短連鎖融合を用いた計画四元数を用いた効率的な推論をブートストラップする。
ALFWorld、ScienceWorld、WebShopの実験は、我々のアプローチがトークンの効率を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 15.103861901247125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Reasoning Models have demonstrated remarkable success on static tasks, yet their application to multi-round agentic planning in interactive environments faces two fundamental challenges. First, the intractable credit assignment problem renders conventional reinforcement learning ineffective in sparse-reward settings. Second, the computational overhead of verbose, step-by-step reasoning histories is prohibitive. To address these challenges, we propose BPO, a three-stage framework (bootstrapping, extrapolation, and refinement) that establishes a self-improving data flywheel to develop robust reasoning models for long-horizon, sparse-reward environments. Our framework first bootstraps efficient reasoning using the proposed planning quaternions with long-short chain-of-thought fusion. It then extrapolates to out-of-distribution tasks through complexity-stratified curriculum learning. Finally, the model iteratively refines itself by learning exclusively on experiences selected via reward-gated rejection sampling. Experiments on ALFWorld, ScienceWorld, and WebShop demonstrate that our approach achieves state-of-the-art with significant token efficiency, providing a new recipe for reasoning models in agentic planning.
- Abstract(参考訳): 大規模言語推論モデルは静的タスクにおいて顕著な成功を収めてきたが、対話型環境におけるマルチラウンドエージェント計画への応用には2つの根本的な課題がある。
第一に、難易度の高い信用割当問題は、スパース・リワード・セッティングにおいて従来の強化学習が効果的でないことを示す。
第二に、冗長でステップバイステップの推論履歴の計算オーバーヘッドは禁じられている。
これらの課題に対処するため,我々は,長距離・スパース・リワード環境のための堅牢な推論モデルを開発するために,自己改善型データフライホイールを確立する3段階のフレームワーク(ブートストラップ,外挿,精錬)であるBPOを提案する。
我々のフレームワークは、長短連鎖融合を用いた計画四元数を用いた効率的な推論を最初にブートストラップする。
そして、複雑性を階層化したカリキュラム学習を通じて、アウト・オブ・ディストリビューションのタスクに外挿する。
最後に、報酬付き拒絶サンプリングによって選択された経験のみを学習することで、モデルを反復的に洗練する。
ALFWorld,ScienceWorld,WebShopの実験では,エージェント計画における推論モデルの新しいレシピとして,トークン効率の高い最先端技術の実現が実証されている。
関連論文リスト
- Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Guided Exploration for Efficient Relational Model Learning [20.853275384388805]
効率的な探索は、複雑で長期のタスクを持つ大規模環境で関係モデルを学習するために重要である。
ゴールリテラルバブリング(GLIB)は、新しいゴールの設定と計画によってランダムな探索を改善する。
バキングラージ(Baking-Large)は、多岐にわたる状態-作用空間と長距離タスクを持つ挑戦的ドメインである。
論文 参考訳(メタデータ) (2025-02-10T04:23:01Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [11.15613673478208]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。