論文の概要: Action-Prior Denoising for Smooth Real-Time Chunking
- arxiv url: http://arxiv.org/abs/2605.25537v1
- Date: Mon, 25 May 2026 07:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.449281
- Title: Action-Prior Denoising for Smooth Real-Time Chunking
- Title(参考訳): Smooth Real-Time Chunkingのためのアクションパラメータデノーミング
- Authors: Dongyang Liu, Zhaowen Zheng, Yu Sun, Longxu Zhang, Yixuan Liu, Hao Wan,
- Abstract要約: リアルタイムチャンキング(RTC)により、チャンクされたアクションポリシーは、以前のチャンクがコミットしたアクションに対して新たに生成されたアクションチャンクを条件にすることで、推論遅延の下で動作することができる。
トレーニングタイムRTCは、学習中にこの遅延をシミュレートし、デプロイメント時の高価なランタイムガイダンスを回避する。
本稿では,アクションプライオリジングに基づく訓練時間RTCの一般化であるソフトRTCを提案する。
- 参考スコア(独自算出の注目度): 12.956533987402054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time chunking (RTC) lets chunked action policies operate under inference delay by conditioning a newly generated action chunk on actions already committed by the previous chunk. Training-time RTC simulates this delay during learning and avoids expensive guidance at deployment, but its binary prefix mask treats all non-prefix tokens as fully unconstrained. This under-models asynchronous execution: early overlap actions are fixed, while later overlap actions remain editable but should still stay close to the previous plan. We propose Soft RTC, a training-time RTC generalization based on action-prior denoising. Soft RTC constructs corrupted overlap tokens from partially denoised states instead of pure noise and injects the aligned previous chunk as the same prior during inference through a lightweight token-wise blending rule. On the 12 released large Kinetix levels, a short soft window nearly matches hard training-time RTC in overall solve rate (0.809 vs. 0.815), while a medium window reduces high-delay action delta and jerk by 9.1% and 9.6% relative to hard RTC. Both variants keep near-naive runtime, unlike inference-time RTC baselines. A small preliminary real-robot sorting study provides additional evidence that training-time RTC can improve completion and that Soft RTC gives the lowest commanded-action finite-difference metrics among the tested policies.
- Abstract(参考訳): リアルタイムチャンキング(RTC)により、チャンクされたアクションポリシーは、以前のチャンクがコミットしたアクションに対して新たに生成されたアクションチャンクを条件にすることで、推論遅延の下で動作することができる。
トレーニングタイムRTCは、学習中にこの遅延をシミュレートし、デプロイメントにおける高価なガイダンスを回避するが、バイナリプレフィックスマスクは、すべての非プリフィックストークンを完全に非制約として扱う。
初期の重複アクションは固定されているが、後続の重複アクションは編集可能であるが、以前の計画に近づき続けるべきである。
本稿では,アクションプライオリジングに基づく訓練時間RTCの一般化であるソフトRTCを提案する。
ソフトRTCは、純粋なノイズではなく、部分的に分解された状態から破損した重複トークンを構成し、軽量なトークンワイド・ブレンディング・ルールを通じて推論中に、一致した前のチャンクを同じ前のチャンクに注入する。
12個の大きなキネテックスレベルでは、短いソフトウィンドウはハードトレーニング時のRTCとほぼ一致し(0.809 vs. 0.815)、中ウィンドウはハードRTCと比較して9.1%と9.6%の遅延アクションデルタとジャークを減少させる。
どちらの変種も、推論時のRTCベースラインとは異なり、ほぼネイティブのランタイムを維持している。
小さな予備的な実ロボットソート研究は、訓練時間RTCが完成度を向上し、ソフトRTCが試験されたポリシーの中で最下位のコマンドアクション有限差測定値を与えるという追加の証拠を提供する。
関連論文リスト
- DiscreteRTC: Discrete Diffusion Policies are Natural Asynchronous Executors [57.944744187489185]
外部修正をネイティブなアンマスクに置き換えるDiscreteRTCを提案する。
DiscreteRTCは、非同期のインペインティングのために0行のコードを実装するのが簡単で、スクラッチから生成したアクションに比べてわずか0.7倍の計算速度で推論が高速で、フローベースのRTCに比べて実世界の動的ピックタスクの成功率が50%向上した。
論文 参考訳(メタデータ) (2026-04-27T23:04:03Z) - Learning Native Continuation for Action Chunking Flow Policies [40.56048312294812]
アクションチャンキングにより、VLA(Vision Language Action)モデルがリアルタイムで実行されるが、単純なチャンク実行はしばしばチャンク境界で不連続を示す。
本稿では,アクションチャンクフローに基づくVLAポリシーのトレーニング時間継続手法であるLegotoを提案する。
レガートはよりスムーズな軌道を発生し、実行中にスムーズなマルチモーダルスイッチングを減少させる。
論文 参考訳(メタデータ) (2026-02-13T14:56:06Z) - Training-Time Action Conditioning for Efficient Real-Time Chunking [45.91723746443767]
トレーニング時の推論遅延をシミュレーションし,アクションプレフィックスを直接条件付けすることで,推論時のオーバーヘッドを解消する。
シミュレーション実験では、トレーニング時間RTCは推論時間RTCよりも高い推論遅延で優れることがわかった。
実時間ロボット制御において,トレーニング時動作条件付けは推論時インペインティングの代替となることが示唆された。
論文 参考訳(メタデータ) (2025-12-05T18:57:28Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting [71.82716109461967]
遅延勾配が利用できる全情報ケースに対して Mild-OGD というアルゴリズムを提案する。
ミルド-OGDのダイナミックな後悔は、順番の仮定の下で$O(sqrtbardT(P_T+1))$で自動的に束縛されることを示す。
Mild-OGDのバンディット版も開発し,損失値の遅れのみを考慮に入れた,より困難なケースについて検討した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。