論文の概要: VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
- arxiv url: http://arxiv.org/abs/2507.01016v1
- Date: Tue, 01 Jul 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.783526
- Title: VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers
- Title(参考訳): VQ-VLA:Scaling Vector-Quantized Action Tokenizersによるビジョンランゲージ・アクションモデルの改善
- Authors: Yating Wang, Haoyi Zhu, Mingyu Liu, Jiange Yang, Hao-Shu Fang, Tong He,
- Abstract要約: 本稿では,従来の100倍以上のデータを活用する,革新的なベクトル化に基づくアクショントークン化手法を提案する。
トレーニングが完了すると、トークン化ツールは広範囲のタスクにシームレスに適応できる。
シミュレーション環境と実際のロボットプラットフォームの両方で広範な実験を行った。
- 参考スコア(独自算出の注目度): 23.868483243482558
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce an innovative vector quantization based action tokenizer built upon the largest-scale action trajectory dataset to date, leveraging over 100 times more data than previous approaches. This extensive dataset enables our tokenizer to capture rich spatiotemporal dynamics, resulting in a model that not only accelerates inference but also generates smoother and more coherent action outputs. Once trained, the tokenizer can be seamlessly adapted to a wide range of downstream tasks in a zero-shot manner, from short-horizon reactive behaviors to long-horizon planning. A key finding of our work is that the domain gap between synthetic and real action trajectories is marginal, allowing us to effectively utilize a vast amount of synthetic data during training without compromising real-world performance. To validate our approach, we conducted extensive experiments in both simulated environments and on real robotic platforms. The results demonstrate that as the volume of synthetic trajectory data increases, the performance of our tokenizer on downstream tasks improves significantly-most notably, achieving up to a 30% higher success rate on two real-world tasks in long-horizon scenarios. These findings highlight the potential of our action tokenizer as a robust and scalable solution for real-time embodied intelligence systems, paving the way for more efficient and reliable robotic control in diverse application domains.Project website: https://xiaoxiao0406.github.io/vqvla.github.io
- Abstract(参考訳): 本稿では,これまでで最大規模のアクショントラジェクトリデータセット上に構築された,ベクトル量子化に基づくアクショントークンーザについて紹介する。
この広範なデータセットにより、トークンーザは豊富な時空間力学を捉えることができ、結果として推論を加速するだけでなく、よりスムーズでコヒーレントな動作出力を生成するモデルが得られる。
トレーニングが完了すると、トークンライザは、短時間の反応行動から長期の計画に至るまで、広範囲の下流タスクにゼロショットでシームレスに適応できる。
我々の研究の重要な発見は、合成行動軌跡と実際の行動軌跡のドメインギャップが限界であり、実世界のパフォーマンスを損なうことなく、トレーニング中に大量の合成データを効果的に活用できるということである。
提案手法の有効性を検証するため,シミュレーション環境と実際のロボットプラットフォームの両方で広範な実験を行った。
その結果, 合成軌道データ量が増加するにつれて, 下流タスクにおけるトークン化器の性能は著しく向上し, 長距離シナリオにおける2つの実世界のタスクにおいて, 30%以上の成功率を達成することができた。
これらの知見は、リアルタイムのインボディード・インテリジェンス・システムの堅牢でスケーラブルなソリューションとしてのアクション・トークンーザの可能性を強調し、多様なアプリケーション領域におけるより効率的で信頼性の高いロボット制御の道を開いた。
関連論文リスト
- FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation [34.045199714747596]
FlowRAMは、生成モデルを利用して地域認識を実現する新しいフレームワークである。
FlowRAMは4段階未満のステップで、さまざまな現実世界のタスクに対して物理的に妥当なアクションを生成することができる。
論文 参考訳(メタデータ) (2025-06-19T10:30:02Z) - Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Real-Time Manipulation Action Recognition with a Factorized Graph Sequence Encoder [0.6437284704257459]
本稿では、リアルタイムに実行し、時間次元を効果的にスケールする新しいファクトリズグラフシーケンスネットワークを提案する。
グラフレベルの埋め込みをより集中的に抽出するための単純なプール操作であるハンドプール操作も導入する。
F1-macroスコアは14.3%,5.6%向上した。
論文 参考訳(メタデータ) (2025-03-15T07:58:25Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
このベンチマークは、言語条件付き、長距離、マルチルーム、マルチフロア、ピック・アンド・プレイスタスクにおけるモデルのデータの効率を評価する。
私たちのベンチマークには、シミュレーションと現実世界の設定において現実性と多様性を提供する、571人の人間によるデモが含まれています。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers [23.292429025366417]
本稿では,逆ダイナミクスコントローラのアクションデータ効率向上を目的としたプランテイン制御フレームワークを提案する。
具体的には、Deep Koopman Operatorフレームワークを用いて力学系をモデル化し、観測のみの軌跡を用いて潜在動作表現を学習する。
この潜在表現は、線形アクションデコーダを用いて実高次元連続的なアクションに効果的にマッピングすることができる。
論文 参考訳(メタデータ) (2024-10-10T03:33:57Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。