Fugu-MT 論文翻訳(概要): Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

論文の概要: Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2603.19233v1
Date: Thu, 19 Mar 2026 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:57.002075
Title: Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models
Title（参考訳）: すべての特徴が等しくなるわけではない:視覚-言語-行動モデルに関する力学的研究
Authors: Bryce Grant, Xijia Zhao, Peng Wang,
Abstract要約: VLA(Vision-Language-Action)モデルは、単一のアーキテクチャにおける知覚、言語、運動制御を組み合わせたモデルである。 394,000回以上のロールアウトエピソードにまたがる80M--7Bパラメータに,アクティベーションインジェクション,スパースオートエンコーダ,線形プローブを適用した。
参考スコア（独自算出の注目度）: 2.5338045371474816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models combine perception, language, and motor control in a single architecture, yet how they translate multimodal inputs into actions remains poorly understood. We apply activation injection, sparse autoencoders (SAEs), and linear probes to six models spanning 80M--7B parameters across 394,000+ rollout episodes on four benchmarks. The visual pathway dominates action generation across all architectures: injecting baseline activations into null-prompt episodes recovers near-identical behavior, while cross-task injection steers robots toward source-task positions (99.8\% of X-VLA episodes align with the source trajectory), exposing spatially bound motor programs tied to scene coordinates rather than abstract task representations. Language sensitivity depends on task structure, not model design: when visual context uniquely specifies the task, language is ignored; when multiple goals share a scene, language becomes essential (X-VLA \texttt{libero\_goal}: 94\%$\to$10\% under wrong prompts vs.\ \texttt{libero\_object}: 60--100\% regardless). In all three multi-pathway architectures (\pizhalf{}, SmolVLA, GR00T), expert pathways encode motor programs while VLM pathways encode goal semantics ($2\times$ greater behavioral displacement from expert injection), and subspace injection confirms these occupy separable activation subspaces. Per-token SAE processing is essential for action fidelity on most architectures, though mean-pooling improves fidelity on X-VLA. Contrastive identification recovers 82+ manipulation concepts, and causal ablation reveals sensitivity spanning 28--92\% zero-effect rates independent of representation width. We release \textbf{Action Atlas} (https://action-atlas.com) for interactive exploration of VLA representations across all six models.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、単一のアーキテクチャにおける知覚、言語、運動制御を組み合わせたモデルであるが、マルチモーダル入力をアクションに変換する方法はまだよく分かっていない。 4つのベンチマークで,アクティベーションインジェクション,スパースオートエンコーダ(SAE),および80M--7Bパラメータにまたがる6種類の線形プローブを394,000回以上のロールアウトエピソードに適用した。ヌル・プロンプトのエピソードにベースラインのアクティベーションを注入すると、ほぼ同一の動作が回復する一方、クロスタスクのインジェクションは、ソース・タスクの位置(X-VLAのエピソードの99.8倍)に向けてロボットを操り、抽象的なタスク表現ではなくシーン座標に結びついた空間的に拘束されたモータープログラムを露出させる。視覚的コンテキストがタスクをユニークに指定した場合、言語は無視される。複数のゴールがシーンを共有するとき、言語は必須となる(X-VLA \texttt{libero\_goal}:94\%$\to$10\%)。いずれにせよ、 \texttt{libero\_object}: 60-100\%)。 3つのマルチパスアーキテクチャ(\pizhalf{}, SmolVLA, GR00T)では、エキスパートパスがモータープログラムをエンコードし、VLMパスが目標セマンティクスをエンコードし(2\times$ more behavioral displacement from expert Injection)、サブスペースインジェクションがこれらを占有する分離可能なアクティベーションサブスペースを確認する。平均プーリングはX-VLAの忠実度を向上するが、ほとんどのアーキテクチャではSAE処理はアクションの忠実度に欠かせない。コントラスト識別は82以上の操作概念を回復し、因果アブレーションは表現幅に依存しない28--92\%ゼロエフェクトレートの感度を示す。我々は6つのモデルすべてにまたがるVLA表現のインタラクティブな探索を行うために、textbf{Action Atlas} (https://action-atlas.com) をリリースした。

関連論文リスト

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文参考訳（メタデータ） (2026-03-03T13:28:07Z)
Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration [72.84714132070404]
受動的相互作用から視覚環境の能動的探索に移行する枠組みを提案する。 Active-Zeroでは,3つの共進化エージェントが採用されている。モデルの機能フロンティアに基づいて,オープンワールドリポジトリからイメージを取得する検索だ。 12ベンチマークにわたるQwen2.5-VL-7B-インストラクションについて : Active-Zero 53.97 における推論タスクの平均精度(5.7%の改善)と一般理解における 59.77 について(3.9%の改善)
論文参考訳（メタデータ） (2026-02-11T17:29:17Z)
VIPER Strike: Defeating Visual Reasoning CAPTCHAs via Structured Vision-Language Inference [4.830055389040475]
視覚推論CAPTCHA(Visual Reasoning CAPTCHA)は、視覚シーンと自然言語クエリを組み合わせて、オブジェクト、属性、空間関係に対する合成推論を要求する。構造化多目的視覚認識と適応LDMに基づく推論を統合した統合攻撃フレームワークViPerを提案する。 ViPerは最大93.2%の成功を達成し、複数のベンチマークで人間レベルのパフォーマンスに近づいている。
論文参考訳（メタデータ） (2026-01-10T07:01:53Z)
DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning [35.44151923549777]
VLA(Vision-Language-Action)モデルは最近、印象的な一般化と言語誘導操作機能を示している。視覚言語モデル(VLM)から受け継いだ空間的推論の制限による空間的推論の精度の低下本稿では,プレトレーニングした深度予測モジュールを通じて空間認識を明示的に組み込んだ,シンプルで効果的なVLAアーキテクチャであるDepthVLAを提案する。
論文参考訳（メタデータ） (2025-10-15T10:09:00Z)
LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文参考訳（メタデータ） (2025-07-27T08:31:24Z)
Robotic Visual Instruction [10.110333805611974]
ロボット視覚指導(RoVI)を導入し,ロボット作業の指導を行う。 RoVIは時空間情報を人間の解釈可能な視覚命令にエンコードする。ロボットがRoVIをよりよく理解できるように、視覚インストラクション・エンボダイド(VIEW)を提案する。
論文参考訳（メタデータ） (2025-05-01T17:55:05Z)
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文参考訳（メタデータ） (2025-03-05T18:44:48Z)
Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文参考訳（メタデータ） (2020-07-29T06:32:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。