論文の概要: Mixture of Horizons in Action Chunking
- arxiv url: http://arxiv.org/abs/2511.19433v1
- Date: Mon, 24 Nov 2025 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.386448
- Title: Mixture of Horizons in Action Chunking
- Title(参考訳): アクションチャンキングにおけるホライズン混合
- Authors: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding,
- Abstract要約: 本稿では,視覚言語-アクションモデルのための水平線(MoH)$戦略を$textbfmixture of horizons(MoH)として提案する。
MoHは、アクションチャンクを異なる水平線で複数のセグメントに並べ替え、共有アクショントランスで並列に処理し、ライトリニアゲートで出力を融合する。
これは1つのモデルにおいて、長期の予測と短期の精度を共同で利用し、複雑なタスクのパフォーマンスと一般化性の両方を改善している。
- 参考スコア(独自算出の注目度): 36.43925695943073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the $\textbf{action chunk length}$ used during training, termed $\textbf{horizon}$. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a $\textbf{mixture of horizons (MoH)}$ strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5$\times$ higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies $π_0$, $π_{0.5}$, and one-step regression policy $π_{\text{reg}}$ demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, $π_{0.5}$ with MoH reaches a new state-of-the-art with 99$\%$ average success rate on LIBERO after only $30k$ training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、ロボット操作において顕著な能力を示しているが、その性能は、トレーニング中に使用される$\textbf{action chunk length}$に敏感である。
より長い地平線は、より強力なグローバルな監視を提供するが、よりきめ細かな精度を低下させる一方、短い地平線は、局所的な制御を鋭くし、長期的なタスクに苦戦し、単一の地平線が最適ではないことを示唆している。
トレードオフを緩和するために、水平線(MoH)$戦略の$\textbf{mixtureを提案する。
MoHは、アクションチャンクを異なる水平線で複数のセグメントに並べ替え、共有アクショントランスで並列に処理し、ライトリニアゲートで出力を融合する。
3つの利点がある。
1) MoHは,1つのモデル内での長期の監視と短期の精度を併用し,複雑なタスクの性能と一般化性を向上する。
2) MoHは、トレーニングや推論のオーバーヘッドを最小限に抑えたフルアテンションアクションモジュール用のプラグイン・アンド・プレイである。
3) MoHは, 水平方向のコンセンサスによって安定した動作を選択し, 高い性能を保ちながら, ベースラインよりも2.5$\times$高いスループットを実現する。
フローベースのポリシーである$π_0$, $π_{0.5}$およびワンステップ回帰ポリシーである$π_{\text{reg}}$に対する大規模な実験は、MoHがシミュレーションと実世界のタスクの両方において一貫した有意な利得を得ることを示した。
特に、混合タスク環境では、MoHの$π_{0.5}$は、わずか30kのトレーニングイテレーションの後、99$\%の平均成功率で新しい最先端に達する。
プロジェクトページ: https://github.com/Timsty1/MixtureOfHorizons
関連論文リスト
- FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。
大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T17:59:43Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。