論文の概要: CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
- arxiv url: http://arxiv.org/abs/2508.21046v1
- Date: Thu, 28 Aug 2025 17:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.545179
- Title: CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
- Title(参考訳): CogVLA: 命令駆動ルーティングとスパシフィケーションによる認知適応型視覚言語行動モデル
- Authors: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie,
- Abstract要約: 最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
- 参考スコア(独自算出の注目度): 48.81250395291505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) Encoder-FiLM based Aggregation Routing (EFA-Routing) injects instruction information into the vision encoder to selectively aggregate and compress dual-stream visual tokens, forming a instruction-aware latent representation. 2) Building upon this compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing) introduces action intent into the language model by pruning instruction-irrelevant visually grounded tokens, thereby achieving token-level sparsity. 3) To ensure that compressed perception inputs can still support accurate and coherent action generation, we introduce V-L-A Coupled Attention (CAtten), which combines causal vision-language attention with bidirectional action parallel decoding. Extensive experiments on the LIBERO benchmark and real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art performance with success rates of 97.4% and 70.0%, respectively, while reducing training costs by 2.5-fold and decreasing inference latency by 2.8-fold compared to OpenVLA. CogVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/CogVLA.
- Abstract(参考訳): 近年のVLA(Vision-Language-Action)モデルでは,VLM(Vision-Language-Action)モデルでは,拡張性とデプロイメントを制限した計算オーバーヘッドが高く,命令駆動のルーティングとスペーシングを活用して効率と性能を両立させるCogVLAを提案する。
CogVLAは、人間のマルチモーダル調整からインスピレーションを得て、3段階のプログレッシブアーキテクチャを導入している。
1)エンコーダ-FiLMベースのアグリゲーションルーティング(EFA-Routing)は、視覚エンコーダに命令情報を注入し、デュアルストリームの視覚トークンを選択的に集約・圧縮し、命令対応の潜在表現を形成する。
2) LLM-FiLM をベースとした Pruning Routing (LFP-Routing) は,命令非関連な視覚的接地トークンをプルーニングすることで, 言語モデルにアクションインテントを導入し, トークンレベルの疎結合を実現する。
3) 圧縮された知覚入力が正確でコヒーレントな行動生成をサポートすることを保証するため, 因果的視覚言語と双方向な行動並列デコーディングを組み合わせた V-L-A Coupled Attention (CAtten) を導入する。
LIBEROベンチマークと実世界のロボットタスクに関する大規模な実験により、CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
CogVLAはhttps://github.com/JiuTian-VL/CogVLAで公開されている。
関連論文リスト
- InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。
InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。
ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文 参考訳(メタデータ) (2025-07-23T13:57:06Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。
CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。