論文の概要: Real-Time Execution of Action Chunking Flow Policies
- arxiv url: http://arxiv.org/abs/2506.07339v1
- Date: Mon, 09 Jun 2025 01:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.771995
- Title: Real-Time Execution of Action Chunking Flow Policies
- Title(参考訳): アクションチャンキングフローポリシのリアルタイム実行
- Authors: Kevin Black, Manuel Y. Galliker, Sergey Levine,
- Abstract要約: 本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking policies. Our method, real-time chunking (RTC), is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, "freezing" actions guaranteed to execute and "inpainting" the rest. To test RTC, we introduce a new benchmark of 12 highly dynamic tasks in the Kinetix simulator, as well as evaluate 6 challenging real-world bimanual manipulation tasks. Results demonstrate that RTC is fast, performant, and uniquely robust to inference delay, significantly improving task throughput and enabling high success rates in precise tasks $\unicode{x2013}$ such as lighting a match $\unicode{x2013}$ even in the presence of significant latency. See https://pi.website/research/real_time_chunking for videos.
- Abstract(参考訳): 現代のAIシステム、特に物理世界と相互作用するシステムは、ますますリアルタイムのパフォーマンスを必要としている。
しかし、最近の視覚言語アクションモデル(VLA)を含む最先端のジェネラリストモデルの高レイテンシは、大きな課題となる。
アクションチャンキングは、高周波制御タスクにおいて時間的一貫性を実現するが、レイテンシ問題を完全に解決せず、チャンク境界における停止や配布外ジャーキーな動きにつながる。
本稿では,アクションチャンキングポリシーの非同期実行を円滑に行う新しい推論時アルゴリズムを提案する。
実時間チャンキング (RTC) は, 再学習を伴わない拡散型, フロー型VLAに対して適用可能である。
現在のアクションを実行している間に、次のアクションチャンクを生成します。
RTCを試験するために、Kinetixシミュレーターで12のハイダイナミックタスクのベンチマークを導入し、6つの実世界のバイマニュアル操作タスクを評価した。
結果は、RTCは高速でパフォーマンスが高く、推論遅延に対して一意に堅牢であり、タスクスループットを大幅に改善し、正確なタスクにおいて高い成功率を実現することを実証している。
ビデオのhttps://pi.website/research/real_time_chunkingを参照してください。
関連論文リスト
- Handling Delay in Real-Time Reinforcement Learning [24.869578892204792]
本稿では,時間的スキップ接続と履歴付加観測を併用した理論的動機付けソリューションを提案する。
並列ニューロン計算により,標準ハードウェア上での推論を6~350%高速化できることを示す。
論文 参考訳(メタデータ) (2025-03-30T15:30:27Z) - Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Prompt-augmented Temporal Point Process for Streaming Event Sequence [18.873915278172095]
本稿では,ニューラル・テンポラル・ポイント・プロセス(TPP)モデルを継続的に監視するための新しいフレームワークを提案する。
PromptTPPは、3つの実際のユーザ行動データセットにわたって、最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-10-08T03:41:16Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。