論文の概要: Observing and Controlling Features in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.05487v1
- Date: Thu, 05 Mar 2026 18:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.951091
- Title: Observing and Controlling Features in Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルにおける特徴の観察と制御
- Authors: Hugo Buurmeijer, Carmen Amo Alonso, Aiden Swann, Marco Pavone,
- Abstract要約: VLA(Vision-Language-Action Models)は、インボディードインテリジェンスに対する顕著な進歩を示している。
機能可観測性と機能可制御性という,2つの主要な概念を紹介し,分析する。
この結果から,ロボットの動作を確実に制御する,目標とする軽量な介入が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 20.193036403223903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action Models (VLAs) have shown remarkable progress towards embodied intelligence. While their architecture partially resembles that of Large Language Models (LLMs), VLAs exhibit higher complexity due to their multi-modal inputs/outputs and often hybrid nature of transformer and diffusion heads. This is part of the reason why insights from mechanistic interpretability in LLMs, which explain how the internal model representations relate to their output behavior, do not trivially transfer to VLA counterparts. In this work, we propose to close this gap by introducing and analyzing two main concepts: feature-observability and feature-controllability. In particular, we first study features that are linearly encoded in representation space, and show how they can be observed by means of a linear classifier. Then, we use a minimal linear intervention grounded in optimal control to accurately place internal representations and steer the VLA's output towards a desired region. Our results show that targeted, lightweight interventions can reliably steer a robot's behavior while preserving closed-loop capabilities. We demonstrate on different VLA architectures ($π_{0.5}$ and OpenVLA) through simulation experiments that VLAs possess interpretable internal structure amenable to online adaptation without fine-tuning, enabling real-time alignment with user preferences and task requirements.
- Abstract(参考訳): VLA(Vision-Language-Action Models)は、インボディードインテリジェンスに対する顕著な進歩を示している。
アーキテクチャはLarge Language Models (LLM) に似ているが、VLAはマルチモーダル入力/出力とトランスフォーマーと拡散ヘッドのハイブリッドな性質のため、より複雑である。
LLMにおける機械的解釈可能性からの洞察が、内部モデル表現が出力の振る舞いとどのように関連しているかを説明するために、VLAに自明に転送しない理由の一部である。
本研究では,特徴可観測性と特徴可制御性という2つの主要な概念を導入し,分析することによって,このギャップを埋めることを提案する。
特に,表現空間に線形符号化された特徴を最初に研究し,線形分類器を用いてそれらがどのように観測できるかを示す。
次に、最適制御に基づく最小限の線形介入を用いて、内部表現を正確に配置し、VLAの出力を所望の領域に向けて制御する。
この結果から,ロボットの動作を確実に制御し,クローズドループ機能を保ちながら,目標とする軽量な介入を行うことが可能であることが示唆された。
我々は、VLAが微調整なしでオンライン適応可能な解釈可能な内部構造を持ち、ユーザの好みやタスク要求とリアルタイムに一致させることができるシミュレーション実験を通じて、異なるVLAアーキテクチャ(π_{0.5}$およびOpenVLA)を実証する。
関連論文リスト
- Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models [16.73630874846666]
視覚言語モデル(VLM)のある時点で空間構造の視覚的・幾何学的・テキスト的表現を組み合わせなければならない
本稿では,VLMがオブジェクト位置をテキストのアクティベーションに線形に結合し,言語トークンによる推論を行うことにより,オブジェクト位置を符号化することを示す。
解析をビデオVLMに拡張し、類似の線形時間ID機構を同定する。
論文 参考訳(メタデータ) (2026-01-18T23:48:38Z) - Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。
本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。
我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-30T03:01:57Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。