論文の概要: Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
- arxiv url: http://arxiv.org/abs/2601.20209v1
- Date: Wed, 28 Jan 2026 03:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.749112
- Title: Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
- Title(参考訳): Spark: 長期エージェント学習のための動的分岐による戦略的政策意識探索
- Authors: Jinyang Wu, Shuo Yang, Changpeng Yang, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao,
- Abstract要約: textbfStrategic textbfPolicy-textbfAware explotextbfRation via textbfKey-state dynamic branching)を提案する。
我々の重要な洞察は、有望な軌道を探索するために重要な決定点において適応的な分岐探索を活性化することである。
textscSparkはトレーニングサンプルをはるかに少なくして優れた成功率を実現し、目に見えないシナリオでも堅牢な一般化を示す。
- 参考スコア(独自算出の注目度): 31.17280303212164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has empowered large language models to act as intelligent agents, yet training them for long-horizon tasks remains challenging due to the scarcity of high-quality trajectories, especially under limited resources. Existing methods typically scale up rollout sizes and indiscriminately allocate computational resources among intermediate steps. Such attempts inherently waste substantial computation budget on trivial steps while failing to guarantee sample quality. To address this, we propose \textbf{Spark} (\textbf{S}trategic \textbf{P}olicy-\textbf{A}ware explo\textbf{R}ation via \textbf{K}ey-state dynamic branching), a novel framework that selectively branches at critical decision states for resource-efficient exploration. Our key insight is to activate adaptive branching exploration at critical decision points to probe promising trajectories, thereby achieving precise resource allocation that prioritizes sampling quality over blind coverage. This design leverages the agent's intrinsic decision-making signals to reduce dependence on human priors, enabling the agent to autonomously expand exploration and achieve stronger generalization. Experiments across diverse tasks (e.g., embodied planning), demonstrate that \textsc{Spark} achieves superior success rates with significantly fewer training samples, exhibiting robust generalization even in unseen scenarios.
- Abstract(参考訳): 強化学習は、大きな言語モデルにインテリジェントエージェントとして機能させる権限を与えてきたが、特に限られた資源の下では、高品質な軌道が不足しているため、長い水平タスクのためにそれらを訓練することは依然として困難である。
既存の方法は通常、ロールアウトサイズをスケールアップし、中間ステップ間で計算資源を無差別に割り当てる。
このような試みは本質的に、サンプルの品質を保証するのに失敗しながら、自明なステップで実質的な計算予算を無駄にします。
これを解決するために、資源効率の高い探索のために重要な決定状態で選択的に分岐する新しいフレームワークである \textbf{Spark} (\textbf{S}trategic \textbf{P}olicy-\textbf{A}ware explo\textbf{R}ation を提案する。
我々の重要な洞察は、重要な決定点における適応的な分岐探索を活性化し、有望な軌道を探索し、ブラインドカバレッジよりもサンプリング品質を優先する正確な資源割り当てを達成することである。
この設計は、エージェントの本質的な意思決定信号を活用して、人間の事前への依存を減らすことにより、エージェントが自律的に探索を拡大し、より強力な一般化を実現することができる。
多様なタスク(例えば、具体化計画)にわたる実験では、‘textsc{Spark} はトレーニングサンプルを著しく少なくして優れた成功率を達成し、目に見えないシナリオにおいても堅牢な一般化を示す。
関連論文リスト
- To Retrieve or To Think? An Agentic Approach for Context Evolution [18.882502245155624]
エージェント・コンテクスト・エボリューション(ACE)は、人間のメタ認知にインスパイアされたフレームワークであり、既存の知識で新たなエビデンスや理由を求めるかどうかを決定する。
ACEは中央のオーケストレータエージェントを雇い、多数決によって戦略的に意思決定を行う。
私たちの研究は、複雑で知識集約的なタスクのための文脈進化生成に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2026-01-13T17:25:57Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - A Multi-Agent Reinforcement Learning Approach for Cooperative Air-Ground-Human Crowdsensing in Emergency Rescue [22.201769922727077]
本稿では,ヒト,UAV,UGVを考慮し,不均一な協調作業割当問題に対処する。
我々は,UGVが低電池UAVのチャージを優先し,検知タスクを遂行する,新しい「ハード・コラボレーティブ」政策を導入する。
本稿では,分散実行アーキテクチャに基づく新しいマルチエージェント強化学習アルゴリズムであるHECTA4ERを提案する。
論文 参考訳(メタデータ) (2025-05-11T14:49:15Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control [26.93901849666341]
一般に、複素高次元空間におけるタスクを達成するための実現可能な領域は極端に狭くなっている。
本稿では,タスク関連トラジェクトリをRLアルゴリズムで模倣した$textbfS$elf-$textbfI$mitative $textbfR$einforcementを提案する。
提案アルゴリズムは,HumanoidBenchを5%余分な計算オーバヘッドで120%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-24T16:55:27Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。