論文の概要: One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy
- arxiv url: http://arxiv.org/abs/2605.07931v3
- Date: Wed, 13 May 2026 19:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.84026
- Title: One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy
- Title(参考訳): フレームごとのワントークン:VLA政策のための世界モデルにおける視覚帯域の再検討
- Authors: Zuojin Tang, Shengchao Yuan, Xiaoxin Bai, Zhiyuan Jing, De Ma, Gang Pan, Bin Liu,
- Abstract要約: 視覚言語アクション(VLA)モデルは、長い地平線を計画するために補助的な世界モジュールにますます依存している。
OneWM-VLAは、Adaptive Attention Poolingを通じて、各ビューをフレーム毎に単一のセマンティックトークンに圧縮する。
フレームごとの視覚的帯域幅を1つのトークンに減らすことができ、長い水平性能を損なうことなく実現できる。
- 参考スコア(独自算出の注目度): 20.112404170033944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models increasingly rely on auxiliary world modules to plan over long horizons, yet how such modules should be parameterized on top of a pretrained VLA remains an open design question. Existing world-model-augmented VLAs typically pass the per-frame visual stream into the world module at high visual bandwidth and treat its rollout as a side product of action prediction; under a constrained adaptation budget on a frozen backbone, this leaves both the per-frame representation and the latent action coupling under-examined. We introduce OneWM-VLA, which compresses each view into a single semantic token per frame through an Adaptive Attention Pooling, and produces the resulting latent stream and the action trajectory under a single flow-matching objective rather than connecting them through a separate decoder. Empirically, we find that per-frame visual bandwidth can be reduced to a single token without compromising long-horizon performance under our setup. Trained with 14.71M LoRA parameters on a $π_0$ (2B) backbone, OneWM-VLA improves the average success rate from 47.9% to 61.3% on MetaWorld~MT50, reaches 95.6% on LIBERO-Long (vs.85.2% for $π_0$), and reaches 60.0% on the long-horizon deformable task Fold Cloth on a real Piper arm (vs.20.0% for $π_0$).
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、長い地平線を計画するために補助的な世界モジュールにますます依存しているが、事前訓練されたVLAの上にそのようなモジュールをどのようにパラメータ化すべきかは、オープンデザインの問題のままである。
既存のワールドモデル拡張VLAは通常、フレーム単位のビジュアルストリームを高い視覚帯域幅で世界モジュールに渡し、ロールアウトをアクション予測の副産物として扱う。
本稿では,各ビューをアダプティブ・アテンション・プール(Adaptive Attention Pooling)を通じてフレーム毎に1つのセマンティック・トークンに圧縮するOneWM-VLAを提案する。
実験により,フレーム単位の視覚的帯域幅を1つのトークンに削減できることがわかった。
π_0$ (2B) のバックボーン上で 14.71M LoRA パラメータでトレーニングされた OneWM-VLA は、MetaWorld~MT50 で 47.9% から 61.3% に改善され、LIBERO-Long で 95.6% (vs.85.2% for $π_0$) に達し、長い水平変形可能なタスク Fold Cloth で 60.0% (vs.20.0% for $π_0$) に達する。
関連論文リスト
- Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference [22.977205925809134]
本稿では,VLM出力の時間差を推定する軽量モデルであるLatent Bridgeを提案する。
ラテントブリッジは95-100%の性能維持を実現し、VLMコールを50-75%削減し、エピソード当たり1.65-1.73xネットのスピードアップを実現している。
論文 参考訳(メタデータ) (2026-05-04T15:37:55Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling [60.341503853471494]
本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。
本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T16:16:13Z) - Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment [1.7188280334580195]
我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
論文 参考訳(メタデータ) (2025-09-20T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。