論文の概要: HiFlow: Tokenization-Free Scale-Wise Autoregressive Policy Learning via Flow Matching
- arxiv url: http://arxiv.org/abs/2603.27281v1
- Date: Sat, 28 Mar 2026 14:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.879759
- Title: HiFlow: Tokenization-Free Scale-Wise Autoregressive Policy Learning via Flow Matching
- Title(参考訳): HiFlow: フローマッチングによるTokenization-free Scale-Wise自己回帰型ポリシ学習
- Authors: Daichi Yashima, Koki Seno, Shuhei Kurita, Yusuke Oda, Komei Sugiura,
- Abstract要約: 階層フロー政策(Hierarchical Flow Policy)は、トークン化のない粗大な自己回帰政策である。
HiFlowは、単純な時間プーリングを通じて、各アクションチャンクからマルチスケールの連続的なアクションターゲットを構築する。
MimicGen、RoboTwin 2.0、および実環境の実験は、HiFlowが既存のメソッドを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 11.405254375363818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coarse-to-fine autoregressive modeling has recently shown strong promise for visuomotor policy learning, combining the inference efficiency of autoregressive methods with the global trajectory coherence of diffusion-based policies. However, existing approaches rely on discrete action tokenizers that map continuous action sequences to codebook indices, a design inherited from image generation where learned compression is necessary for high-dimensional pixel data. We observe that robot actions are inherently low-dimensional continuous vectors, for which such tokenization introduces unnecessary quantization error and a multi-stage training pipeline. In this work, we propose Hierarchical Flow Policy (HiFlow), a tokenization-free coarse-to-fine autoregressive policy that operates directly on raw continuous actions. HiFlow constructs multi-scale continuous action targets from each action chunk via simple temporal pooling. Specifically, it averages contiguous action windows to produce coarse summaries that are refined at finer temporal resolutions. The entire model is trained end-to-end in a single stage, eliminating the need for a separate tokenizer. Experiments on MimicGen, RoboTwin 2.0, and real-world environments demonstrate that HiFlow consistently outperforms existing methods including diffusion-based and tokenization-based autoregressive policies.
- Abstract(参考訳): 近年, 自己回帰的手法の推論効率と拡散に基づく政策のグローバルな軌道コヒーレンスを組み合わせた, 自己回帰的自己回帰的モデリングが, ビジュモータ政策学習に強く期待されている。
しかし、既存のアプローチでは、連続的なアクションシーケンスをコードブックインデックスにマッピングする離散的なアクショントークンを頼りにしており、これは高次元のピクセルデータに学習圧縮が必要な画像生成から継承された設計である。
ロボットの動作は本質的に低次元連続ベクトルであり、そのようなトークン化は不要な量子化誤差と多段階学習パイプラインをもたらす。
本研究では,トークン化のない粗大な自己回帰政策である階層フローポリシー(HiFlow)を提案する。
HiFlowは、単純な時間プーリングを通じて、各アクションチャンクからマルチスケールの連続的なアクションターゲットを構築する。
具体的には、連続した動作ウィンドウを平均化し、より微細な時間分解能で洗練される粗い要約を生成する。
モデル全体が1つのステージでエンドツーエンドでトレーニングされ、別のトークン化ツールが不要になる。
MimicGen、RoboTwin 2.0、および実世界の環境に関する実験は、HiFlowが拡散ベースの自己回帰ポリシーやトークン化ベースの自己回帰ポリシーを含む既存の手法を一貫して上回っていることを示している。
関連論文リスト
- Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning [49.369614288007334]
FlowSteerは、エージェントと実行可能なキャンバス環境として軽量なポリシーモデルを採用する、エンドツーエンドの強化学習フレームワークである。
FlowSteerは様々なタスクでベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2026-02-02T05:30:42Z) - CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation [4.726851899243877]
LG-Flow Policyは、連続的な潜在アクション空間でフローマッチングを実行する軌道レベルの模倣学習フレームワークである。
動作シーケンスを時間的に規則化された潜在軌道に符号化し、明示的な潜在空間の流れを学習することにより、提案手法は低レベル制御ノイズからグローバルな運動構造を分離する。
論文 参考訳(メタデータ) (2026-01-30T15:36:43Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies [21.024480978703288]
本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは高速な推論速度で高い性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T10:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。