論文の概要: FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency
- arxiv url: http://arxiv.org/abs/2506.08822v1
- Date: Tue, 10 Jun 2025 14:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.568721
- Title: FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency
- Title(参考訳): FreqPolicy: 周波数一貫性による効率的なフローベースビズモータポリシ
- Authors: Yifei Su, Ning Liu, Dong Chen, Zhen Zhao, Kun Wu, Meng Li, Zhiyuan Xu, Zhengping Che, Jian Tang,
- Abstract要約: 本稿では,ロボット操作における時間情報を活用するFreqPolicyを提案する。
FreqPolicyは最初、フローベースのビジュモータポリシーに周波数一貫性の制約を課す。
推論周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
- 参考スコア(独自算出の注目度): 34.81668269819768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modeling-based visuomotor policies have been widely adopted in robotic manipulation attributed to their ability to model multimodal action distributions. However, the high inference cost of multi-step sampling limits their applicability in real-time robotic systems. To address this issue, existing approaches accelerate the sampling process in generative modeling-based visuomotor policies by adapting acceleration techniques originally developed for image generation. Despite this progress, a major distinction remains: image generation typically involves producing independent samples without temporal dependencies, whereas robotic manipulation involves generating time-series action trajectories that require continuity and temporal coherence. To effectively exploit temporal information in robotic manipulation, we propose FreqPolicy, a novel approach that first imposes frequency consistency constraints on flow-based visuomotor policies. Our work enables the action model to capture temporal structure effectively while supporting efficient, high-quality one-step action generation. We introduce a frequency consistency constraint that enforces alignment of frequency-domain action features across different timesteps along the flow, thereby promoting convergence of one-step action generation toward the target distribution. In addition, we design an adaptive consistency loss to capture structural temporal variations inherent in robotic manipulation tasks. We assess FreqPolicy on 53 tasks across 3 simulation benchmarks, proving its superiority over existing one-step action generators. We further integrate FreqPolicy into the vision-language-action (VLA) model and achieve acceleration without performance degradation on the 40 tasks of Libero. Besides, we show efficiency and effectiveness in real-world robotic scenarios with an inference frequency 93.5Hz. The code will be publicly available.
- Abstract(参考訳): 生成的モデリングに基づくビジュモータポリシーは、マルチモーダルな動作分布をモデル化する能力に起因して、ロボット操作において広く採用されている。
しかし、マルチステップサンプリングの高推論コストは、リアルタイムロボットシステムへの適用性を制限している。
この問題に対処するため、既存のアプローチでは、画像生成用に開発された加速度技術を適用して、生成モデルに基づくビジュモータポリシーのサンプリングプロセスを加速する。
画像生成は通常、時間依存のない独立したサンプルを生成するが、ロボット操作は連続性と時間コヒーレンスを必要とする時系列アクショントラジェクトリを生成する。
ロボット操作における時間情報を効果的に活用するために,フローベースのビジュモータポリシーに周波数整合性制約を課す新しいアプローチであるFreqPolicyを提案する。
我々の研究は、効率的な高品質なワンステップアクション生成をサポートしながら、アクションモデルが時間構造を効果的にキャプチャすることを可能にする。
周波数整合性制約を導入し、流れに沿って異なる時間ステップをまたいだ周波数領域の動作特徴のアライメントを強制し、1段階の動作生成の目標分布への収束を促進させる。
さらに,ロボット操作作業に特有の時間的構造変化を捉えるために適応整合損失を設計する。
FreqPolicyを3つのシミュレーションベンチマークで53のタスクで評価し、既存のワンステップアクションジェネレータよりも優れていることを示す。
我々はさらに、FreqPolicyを視覚言語アクション(VLA)モデルに統合し、リベロの40のタスクで性能劣化を伴わずにアクセラレーションを実現する。
さらに,推測周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
コードは公開されます。
関連論文リスト
- FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens [20.715024408481973]
本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。
さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。
我々の手法は、精度と効率の両方で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-06-02T12:13:51Z) - Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation [18.209973947319316]
拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。
近年の手法では3次元ロボット操作作業において顕著な性能を示すが、複数のデノナイジングステップにより実行時の非効率が悪化している。
拡散過程に一貫性の制約を課すリアルタイムロボット操作モデルManiCMを提案する。
論文 参考訳(メタデータ) (2024-06-03T17:59:23Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z) - Next Steps: Learning a Disentangled Gait Representation for Versatile
Quadruped Locomotion [69.87112582900363]
現在のプランナーは、ロボットが動いている間、キー歩行パラメータを連続的に変更することはできない。
本研究では、特定の歩行を構成する重要な姿勢位相を捉える潜在空間を学習することにより、この制限に対処する。
本研究では, 歩幅, 歩幅, 立位など, 歩行パラメータに直接対応した駆動信号マップの具体的特性を示す。
論文 参考訳(メタデータ) (2021-12-09T10:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。