論文の概要: ActionCodec: What Makes for Good Action Tokenizers
- arxiv url: http://arxiv.org/abs/2602.15397v1
- Date: Tue, 17 Feb 2026 07:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.007067
- Title: ActionCodec: What Makes for Good Action Tokenizers
- Title(参考訳): ActionCodec: 優れたアクショントケナイザのためのもの
- Authors: Zibin Dong, Yicheng Liu, Shiduo Zhang, Baijun Ye, Yifu Yuan, Fei Ni, Jingjing Gong, Xipeng Qiu, Hang Zhao, Yinchuan Li, Jianye Hao,
- Abstract要約: VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
- 参考スコア(独自算出の注目度): 106.78093973045526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models leveraging the native autoregressive paradigm of Vision-Language Models (VLMs) have demonstrated superior instruction-following and training efficiency. Central to this paradigm is action tokenization, yet its design has primarily focused on reconstruction fidelity, failing to address its direct impact on VLA optimization. Consequently, the fundamental question of \textit{what makes for good action tokenizers} remains unanswered. In this paper, we bridge this gap by establishing design principles specifically from the perspective of VLA optimization. We identify a set of best practices based on information-theoretic insights, including maximized temporal token overlap, minimized vocabulary redundancy, enhanced multimodal mutual information, and token independence. Guided by these principles, we introduce \textbf{ActionCodec}, a high-performance action tokenizer that significantly enhances both training efficiency and VLA performance across diverse simulation and real-world benchmarks. Notably, on LIBERO, a SmolVLM2-2.2B fine-tuned with ActionCodec achieves a 95.5\% success rate without any robotics pre-training. With advanced architectural enhancements, this reaches 97.4\%, representing a new SOTA for VLA models without robotics pre-training. We believe our established design principles, alongside the released model, will provide a clear roadmap for the community to develop more effective action tokenizers.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、VLM(Vision-Language Models)のネイティブ自己回帰パラダイムを活用することで、優れた命令追従と訓練効率を示す。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てており、VLA最適化への直接的な影響に対処することができなかった。
したがって、textit{What の基本的な問題は未解決のままである。
本稿では,VLA最適化の観点から設計原則を確立することにより,このギャップを埋める。
我々は,時間的トークン重複の最大化,語彙冗長性の最小化,マルチモーダル相互情報の強化,トークン独立性など,情報理論的な洞察に基づくベストプラクティスの集合を同定する。
これらの原則に則って,多様なシミュレーションおよび実世界のベンチマークにおいて,トレーニング効率とVLA性能の両方を著しく向上させる高性能なアクショントークンライザである \textbf{ActionCodec} を紹介する。
特にLIBEROでは、ActionCodecで微調整されたSmolVLM2-2.2Bが、ロボットの事前訓練なしで95.5倍の成功率を達成した。
高度なアーキテクチャ拡張により、これは97.4\%に達し、ロボット工学を事前訓練せずにVLAモデルの新しいSOTAを表す。
私たちの確立した設計原則は、リリースされたモデルとともに、コミュニティがより効果的なアクショントークン化ツールを開発するための明確なロードマップを提供すると思います。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation [76.13140980997508]
VLA(Vision-Language Action)モデルは、事前訓練された視覚言語モデル(VLM)の強い知覚能力を活用することにより、ロボット操作を著しく向上させる。
本稿では,VLMに事前訓練された小規模な行動モデルから知識を伝達することで,動作実行能力を持たせる,簡易かつ効果的な蒸留ベースフレームワークを提案する。
5つの操作課題にわたる実世界の実験において,本手法は教師モデルより一貫して優れ,82.0%の成功率(17%改善)を達成した。
論文 参考訳(メタデータ) (2025-10-10T17:59:56Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。