論文の概要: Learning High-Frequency Continuous Action Chunks in Latent Space
- arxiv url: http://arxiv.org/abs/2605.24931v1
- Date: Sun, 24 May 2026 08:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.518063
- Title: Learning High-Frequency Continuous Action Chunks in Latent Space
- Title(参考訳): 潜時空間における高周波連続行動チャンクの学習
- Authors: Kunyun Wang, Yuhang Zheng, Yupeng Zheng, Jieru Zhao, Wenchao Ding,
- Abstract要約: 現代のロボット政策は、物理世界で複雑なタスクを実行するためにアクションチャンキングにますます依存している。
このような高頻度では、ポリシーはしばしば時間的に滑らかで空間的に整合性のあるアクションを生成するのに失敗する。
変動オートエンコーダ(VAE)を用いた高周波行動学習を動作空間から潜時空間にシフトすることで、この問題に対処する。
この定式化は、高周波制御の時間的および空間的整合性を著しく改善する。
- 参考スコア(独自算出の注目度): 10.321199672785392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern robotic policies increasingly rely on action chunking to execute complex tasks in the physical world. While action chunking improves temporal consistency at moderate action frequencies, it becomes insufficient when the action frequency is further increased (e.g., to 60~Hz). At such high frequencies, policies often fail to generate actions that are both temporally smooth and spatially consistent. We address this challenge by shifting high-frequency action learning from the action space to a latent space with variational autoencoder (VAE). This formulation significantly improves both temporal and spatial consistency of high-frequency control. To enable smooth real-time execution, we further introduce Reuse-then-Refine, a chunk-level refine strategy that improves continuity between adjacent action chunks under asynchronous inference. As a result, robots controlled by our policy can execute complex contact-rich tasks continuously, with less pauses and jerky motions. Experiments on three real-world contact-rich robotic tasks show that our approach consistently completes tasks with smooth motions. Our code and data are available at https://github.com/tars-robotics/RTR.
- Abstract(参考訳): 現代のロボット政策は、物理世界で複雑なタスクを実行するためにアクションチャンキングにますます依存している。
アクションチャンキングは、適度な動作周波数での時間的整合性を改善するが、アクション周波数がさらに増加すると不十分になる(例えば、60〜Hz)。
このような高頻度では、ポリシーはしばしば時間的に滑らかで空間的に整合性のあるアクションを生成するのに失敗する。
動作空間から変動オートエンコーダ(VAE)を用いた潜在空間へ高周波動作学習をシフトすることで、この問題に対処する。
この定式化は、高周波制御の時間的および空間的整合性を著しく改善する。
リアルタイム実行をスムーズにするために,非同期推論の下で隣接するアクションチャンク間の連続性を改善するチャンクレベルの洗練された戦略であるReuse-then-Refineを導入する。
その結果、我々のポリシーで制御されるロボットは、停止や不安定な動きを減らして、複雑なコンタクトリッチなタスクを継続的に実行することができる。
実世界の接触に富む3つのロボットタスクの実験は、我々のアプローチがスムーズな動作でタスクを一貫して完了していることを示している。
私たちのコードとデータはhttps://github.com/tars-robotics/RTR.comで公開されています。
関連論文リスト
- HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning [17.3424491065084]
HiPolicyは階層的な多周波数アクションチャンキングフレームワークで、異なる周波数でのアクションシーケンスを予測し、粗い高レベル計画と正確な反応性動作の両方をキャプチャする。
多様なシミュレーションベンチマークと実世界の操作タスクの実験は、HiPolicyが既存の2Dおよび3D生成ポリシーにシームレスに統合可能であることを示している。
論文 参考訳(メタデータ) (2026-04-07T16:47:38Z) - Enabling Dynamic Tracking in Vision-Language-Action Models via Time-Discrete and Time-Continuous Velocity Feedforward [11.066720921275648]
視覚言語アクション(VLA)モデルは、ロボット操作に非常に有望である。
厳格な産業用ロボットへの展開は、コンプライアンスと応答性の本質的にのトレードオフのため、依然として困難である。
本稿では、このトレードオフを解決するために、速度フィードフォワード項をVLAポリシーに統合することの重要性を示す。
論文 参考訳(メタデータ) (2026-03-17T07:50:00Z) - Real-Time Robot Execution with Masked Action Chunking [38.37108371991901]
ロボットのようなサイバー物理システムにはリアルタイム実行が不可欠である。
近年,リアルタイムロボット操作のためのシステムレベルのパラダイムとして,非同期推論が登場している。
本稿では,マスクされたアクションチャンキングによって事前訓練されたポリシーの修正を学習するREMACを提案する。
論文 参考訳(メタデータ) (2026-01-27T23:48:32Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z) - FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens [47.735852718586216]
本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。
さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。
我々の手法は、精度と効率の両方で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-06-02T12:13:51Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。