論文の概要: The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling
- arxiv url: http://arxiv.org/abs/2604.03191v1
- Date: Fri, 03 Apr 2026 17:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.547072
- Title: The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling
- Title(参考訳): 圧縮ギャップ:なぜ離散的トークン化が視覚・言語・アクションモデルスケーリングを制限するのか
- Authors: Takuya Shiba,
- Abstract要約: ビジョンエンコーダのアップグレードによるVLAモデルのスケールアップにより,下流操作性能が向上することが期待される。
この期待は、アクションが離散トークンとして表現されるときに失敗することを示す。
任意のビジュモータパイプラインでは、スケーリングの振る舞いは、最も厳しい情報のボトルネックの位置によって管理される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling Vision-Language-Action (VLA) models by upgrading the vision encoder is expected to improve downstream manipulation performance--as it does in vision-language modeling. We show that this expectation fails when actions are represented as discrete tokens, and explain why through an information-theoretic principle we call the Compression Gap: in any visuomotor pipeline, scaling behavior is governed by the location of the tightest information bottleneck. When actions are continuous (e.g., Diffusion Policy), the vision encoder is the binding constraint, and upgrading it directly improves performance. When actions are discretized through a fixed-capacity codebook (e.g., OAT), the codebook becomes the binding constraint, and encoder improvements cannot propagate past it--regardless of how rich the upstream representation is. We validate this principle on the LIBERO benchmark with three lines of evidence: a factorial experiment showing that encoder upgrades improve Diffusion Policy by over 21 percentage points while OAT gains are substantially attenuated across model scales; an encoder quality gradient across four encoders confirming that Diffusion Policy tracks encoder quality monotonically while OAT remains flat; and a codebook size experiment demonstrating that relaxing codebook capacity partially recovers encoder sensitivity, providing causal evidence for the bottleneck hypothesis. Our findings reveal that scaling in Physical AI requires identifying where information bottlenecks lie in the pipeline, rather than uniformly increasing model or data size.
- Abstract(参考訳): ビジョンエンコーダのアップグレードによるVLAモデルのスケーリングは、視覚言語モデルと同様に、下流での操作性能を改善することが期待されている。
この期待は、アクションが離散トークンとして表現されるときに失敗することを示し、なぜ情報理論の原則をCompression Gapと呼ぶのかを説明する。
アクションが連続している場合(例えば拡散ポリシー)、視覚エンコーダはバインディングの制約であり、それをアップグレードすることでパフォーマンスが向上する。
アクションが固定容量のコードブック(例えばOAT)で識別されると、コードブックはバインディングの制約となり、エンコーダの改善は、上流の表現がどれほど豊かであるかに関わらず、それを伝播できない。
我々は,この原理をLIBEROベンチマークで検証し,エンコーダのアップグレードが21パーセント以上向上することを示す因子的実験,OATゲインがモデルスケールで実質的に減衰する一方で,OATゲインがモデルスケールで低下することを示すエンコーダの品質勾配,OATがフラットである間,Diffusion Policyがエンコーダの品質を単調に追跡することを示すエンコーダの品質勾配,コードブックの容量の緩和が部分的にエンコーダの感度を回復することを示すコードブックサイズ実験,およびボトルネック仮説の因果的証拠を提供する。
我々の研究結果によると、物理AIのスケーリングには、モデルやデータサイズを均一に増加させるのではなく、パイプラインのどこにボトルネックがあるかを特定する必要がある。
関連論文リスト
- How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs [14.40434528827243]
最近の視覚中心のアプローチは、長いコンテキストモデリングにおいて大きな進歩を遂げている。
これらのモデルは、レンダリングされたテキストを連続した視覚トークンにエンコードし、認識精度を犠牲にすることなく高い圧縮率を達成する。
しかし、視覚エンコーダを有限表現能力の損失チャネルと見なすと、基本的な疑問が持ち上がる。
論文 参考訳(メタデータ) (2026-01-28T15:21:51Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Variance Constrained Autoencoding [0.0]
エンコーダの場合、同時に分布制約を強制し、出力歪みを最小化しようとすると、生成的および再構成的品質が低下することを示す。
本稿では,分散制約のみを適用した分散制約付きオートエンコーダ(VCAE)を提案する。
実験の結果,VCAEは,MNISTとCelebAの再構成および生成品質において,ワッサースタインオートエンコーダと変分オートエンコーダを改良することがわかった。
論文 参考訳(メタデータ) (2020-05-08T00:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。