論文の概要: Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
- arxiv url: http://arxiv.org/abs/2601.20209v1
- Date: Wed, 28 Jan 2026 03:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.749112
- Title: Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
- Title(参考訳): Spark: 長期エージェント学習のための動的分岐による戦略的政策意識探索
- Authors: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao,
- Abstract要約: textbfStrategic textbfPolicy-textbfAware explotextbfRation via textbfKey-state dynamic branching)を提案する。
我々の重要な洞察は、有望な軌道を探索するために重要な決定点において適応的な分岐探索を活性化することである。
textscSparkはトレーニングサンプルをはるかに少なくして優れた成功率を実現し、目に見えないシナリオでも堅牢な一般化を示す。
- 参考スコア(独自算出の注目度): 31.17280303212164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose \textbf{Spark} (\textbf{S}trategic \textbf{P}olicy-\textbf{A}ware explo\textbf{R}ation via \textbf{K}ey-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that \textsc{Spark} achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.
- Abstract(参考訳): 強化学習は、大きな言語モデルにインテリジェントエージェントとして機能させる権限を与えてきたが、特に限られた資源の下では、高品質な軌道が不足しているため、長い水平タスクのためにそれらを訓練することは依然として困難である。
既存の方法は通常、ロールアウトサイズをスケールアップし、中間ステップ間で計算資源を無差別に割り当てる。
このような試みは本質的に、サンプルの品質を保証するのに失敗しながら、自明なステップで実質的な計算予算を無駄にします。
これを解決するために、資源効率の高い探索のために重要な決定状態で選択的に分岐する新しいフレームワークである \textbf{Spark} (\textbf{S}trategic \textbf{P}olicy-\textbf{A}ware explo\textbf{R}ation を提案する。
我々の重要な洞察は、重要な決定点における適応的な分岐探索を活性化し、有望な軌道を探索し、ブラインドカバレッジよりもサンプリング品質を優先する正確な資源割り当てを達成することである。
この設計は、エージェントの本質的な意思決定信号を活用して、人間の事前への依存を減らすことにより、エージェントが自律的に探索を拡大し、より強力な一般化を実現することができる。
多様なタスク(例えば、具体化計画)にわたる実験では、‘textsc{Spark} はトレーニングサンプルを著しく少なくして優れた成功率を達成し、目に見えないシナリオにおいても堅牢な一般化を示す。
関連論文リスト
- Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling [29.182538022605627]
Branching Relative Policy Optimization (BranPO) は、高額な報酬なしで段階レベルのコントラスト管理を提供する価値のない手法である。
BranPOは尾部付近の軌跡を切断し、他の連続をサンプリングし、共有接頭辞の上に対照的な接尾辞を構成する。
さらに効率を向上し、トレーニングを安定させるために、タスク間の分岐周波数に適応する難易度分岐サンプリングと、不正な動作を抑制するために冗長なステップマスキングを導入する。
論文 参考訳(メタデータ) (2026-02-03T16:43:09Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - To Retrieve or To Think? An Agentic Approach for Context Evolution [18.882502245155624]
エージェント・コンテクスト・エボリューション(ACE)は、人間のメタ認知にインスパイアされたフレームワークであり、既存の知識で新たなエビデンスや理由を求めるかどうかを決定する。
ACEは中央のオーケストレータエージェントを雇い、多数決によって戦略的に意思決定を行う。
私たちの研究は、複雑で知識集約的なタスクのための文脈進化生成に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2026-01-13T17:25:57Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning [32.80410217696872]
目標条件付き超長距離RL(DISCOVER)の指向性スパース・リワード法を提案する。
我々は、DiscoVERを盗賊の原理的な探索に結びつけ、ターゲットタスクがターゲットへの初期距離で達成可能になるまでの時間を正式に制限する。
そこで,DiscoVERの方向性選択は,従来のRLにおける最先端探査手法の到達範囲を超えている探索問題を解く。
論文 参考訳(メタデータ) (2025-05-26T11:35:07Z) - A Multi-Agent Reinforcement Learning Approach for Cooperative Air-Ground-Human Crowdsensing in Emergency Rescue [22.201769922727077]
本稿では,ヒト,UAV,UGVを考慮し,不均一な協調作業割当問題に対処する。
我々は,UGVが低電池UAVのチャージを優先し,検知タスクを遂行する,新しい「ハード・コラボレーティブ」政策を導入する。
本稿では,分散実行アーキテクチャに基づく新しいマルチエージェント強化学習アルゴリズムであるHECTA4ERを提案する。
論文 参考訳(メタデータ) (2025-05-11T14:49:15Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control [26.93901849666341]
一般に、複素高次元空間におけるタスクを達成するための実現可能な領域は極端に狭くなっている。
本稿では,タスク関連トラジェクトリをRLアルゴリズムで模倣した$textbfS$elf-$textbfI$mitative $textbfR$einforcementを提案する。
提案アルゴリズムは,HumanoidBenchを5%余分な計算オーバヘッドで120%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-24T16:55:27Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。