論文の概要: Adaptive Action Chunking at Inference-time for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.04161v1
- Date: Sun, 05 Apr 2026 16:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.951952
- Title: Adaptive Action Chunking at Inference-time for Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルにおける推論時の適応的行動チャンキング
- Authors: Yuanchang Liang, Xiaobo Wang, Kai Wang, Shuo Wang, Xiaojiang Peng, Haoyu Chen, David Kim Huat Chua, Prahlad Vadakkepat,
- Abstract要約: アクションチャンキングは、ロボット操作能力を改善するための重要なテクニックである。
大きなチャンクサイズは、新しい情報に対するモデルの応答性を低下させ、小さなチャンクではモードジャンプの可能性を高める。
本稿では,適応的行動チャンキング(Adaptive Action Chunking, AAC)戦略を提案する。
- 参考スコア(独自算出の注目度): 22.3720651624276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Vision-Language-Action (VLA) models, action chunking (i.e., executing a sequence of actions without intermediate replanning) is a key technique to improve robotic manipulation abilities. However, a large chunk size reduces the model's responsiveness to new information, while a small one increases the likelihood of mode-jumping, jerky behavior resulting from discontinuities between chunks. Therefore, selecting the optimal chunk size is an urgent demand to balance the model's reactivity and consistency. Unfortunately, a dominant trend in current VLA models is an empirical fixed chunk length at inference-time, hindering their superiority and scalability across diverse manipulation tasks. To address this issue, we propose a novel Adaptive Action Chunking (AAC) strategy, which exploits action entropy as the cue to adaptively determine the chunk size based on current predictions. Extensive experiments on a wide range of simulated and real-world robotic manipulation tasks have demonstrated that our approach substantially improves performance over the state-of-the-art alternatives. The videos and source code are publicly available at https://lance-lot.github.io/adaptive-chunking.github.io/.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(Vision-Language-Action、VLA)モデルでは、ロボット操作能力を改善するための重要な技術である。
しかし、大きなチャンクサイズは、新しい情報に対するモデルの応答性を低下させ、小さなチャンクは、チャンク間の不連続に起因するモードジャンピングやジャーキーな振る舞いの可能性を増大させる。
したがって、最適なチャンクサイズを選択することは、モデルの反応性と一貫性のバランスをとるための緊急の要求である。
残念ながら、現在のVLAモデルの主流の傾向は、推論時に経験的な固定チャンク長であり、様々な操作タスクにおけるその優位性とスケーラビリティを妨げる。
そこで本研究では,現在予測されているチャンクサイズを適応的に決定する手法として,アクションエントロピーを利用した適応的アクションチャンキング(AAC)戦略を提案する。
シミュレーションおよび実世界のロボット操作タスクの広範な実験は、我々のアプローチが最先端の代替手段よりも性能を大幅に向上することを示した。
ビデオとソースコードはhttps://lance-lot.github.io/adaptive-chunking.github.io/で公開されている。
関連論文リスト
- Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation [27.007611140797852]
既存の手法では、VLAモデル内の視覚的冗長性を低減し、推論速度を最適化する。
textbfAction-aware textbfDynamic textbfPruning (textbfADP)を提案する。
論文 参考訳(メタデータ) (2025-09-26T09:13:02Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - FuXi-$α$: Scaling Recommendation Model with Feature Interaction Enhanced Transformer [81.12174905444229]
近年の進歩は、大規模レコメンデーションモデルに逐次レコメンデーションモデルを拡張することが効果的な戦略であることを示している。
これらの問題に対処するために、FuXi-$alpha$と呼ばれる新しいモデルを提案する。
我々のモデルは既存のモデルよりも優れており、モデルのサイズが大きくなるにつれてその性能は継続的に向上する。
論文 参考訳(メタデータ) (2025-02-05T09:46:54Z) - TOAST: Transformer Optimization using Adaptive and Simple Transformations [40.311292704886235]
ToASTは,全トランスバータブロックを軽量なクローズドフォームマッピングで近似する冗長性を利用するフレームワークである。
その結果,変圧器の深さの大部分は自明な関数に置き換えられ,効率的な基礎モデルに対する新たな視点が開かれた。
論文 参考訳(メタデータ) (2024-10-07T11:35:24Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。