論文の概要: Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models
- arxiv url: http://arxiv.org/abs/2603.19183v1
- Date: Thu, 19 Mar 2026 17:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:57.000057
- Title: Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models
- Title(参考訳): VLAモデルにおけるスパースオートエンコーダの解釈と安定性
- Authors: Aiden Swann, Lachlain McGranahan, Hugo Buurmeijer, Monroe Kennedy, Mac Schwager,
- Abstract要約: VLA(Vision-Language-Action)モデルが汎用ロボット操作のための有望なアプローチとして登場した。
VLAモデルの内部動作をよりよく理解するために,機械的解釈可能性技術を適用した。
本研究では,個々のSAEがロボット行動に因果的に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 7.1750939299528795
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising approach for general-purpose robot manipulation. However, their generalization is inconsistent: while these models can perform impressively in some settings, fine-tuned variants often fail on novel objects, scenes, and instructions. We apply mechanistic interpretability techniques to better understand the inner workings of VLA models. To probe internal representations, we train Sparse Autoencoders (SAEs) on hidden layer activations of the VLA. SAEs learn a sparse dictionary whose features act as a compact, interpretable basis for the model's computation. We find that the large majority of extracted SAE features correspond to memorized sequences from specific training demonstrations. However, some features correspond to interpretable, general, and steerable motion primitives and semantic properties, offering a promising glimpse toward VLA generalizability. We propose a metric to categorize features according to whether they represent generalizable transferable primitives or episode-specific memorization. We validate these findings through steering experiments on the LIBERO benchmark. We show that individual SAE features causally influence robot behavior. Steering general features induces behaviors consistent with their semantic meaning and can be applied across tasks and scenes. This work provides the first mechanistic evidence that VLAs can learn generalizable features across tasks and scenes. We observe that supervised fine-tuning on small robotics datasets disproportionately amplifies memorization. In contrast, training on larger, more diverse datasets (e.g., DROID) or using knowledge insulation promotes more general features. We provide an open-source codebase and user-friendly interface for activation collection, SAE training, and feature steering. Our project page is located at http://drvla.github.io
- Abstract(参考訳): VLA(Vision-Language-Action)モデルが汎用ロボット操作のための有望なアプローチとして登場した。
しかし、それらの一般化は矛盾するものであり、これらのモデルはいくつかの設定で驚くべき性能を発揮するが、微調整された変種は、しばしば新しいオブジェクト、シーン、命令で失敗する。
VLAモデルの内部動作をよりよく理解するために,機械的解釈可能性技術を適用した。
内部表現を探索するために、VLAの隠された層活性化に対してスパースオートエンコーダ(SAE)を訓練する。
SAEは、モデル計算のコンパクトで解釈可能な基盤として機能するスパース辞書を学ぶ。
その結果,抽出されたSAE特徴の大部分は,特定の訓練実験の暗記シーケンスに対応していることがわかった。
しかしながら、いくつかの特徴は解釈可能で、汎用的で、ステアブルなモーションプリミティブとセマンティックな性質に対応しており、VLAの一般化に向けて有望な予感を与えている。
一般化可能な転送可能なプリミティブを表すか、エピソード固有の記憶を表すかに応じて特徴を分類する指標を提案する。
LIBEROベンチマークのステアリング実験により,これらの知見を検証した。
本研究では,個々のSAEがロボット行動に因果的に影響を及ぼすことを示す。
ステアリングの一般的な特徴は、その意味的な意味と一致した振る舞いを誘導し、タスクやシーンにまたがって適用することができる。
この研究は、VLAがタスクやシーンにまたがって一般化可能な特徴を学習できるという最初の力学的な証拠を提供する。
小型ロボティクスデータセットの教師付き微調整が暗記を不当に増幅するのを観察する。
対照的に、より大きく多様なデータセット(例えば、DROID)のトレーニングや知識絶縁の使用は、より一般的な特徴を促進する。
私たちはオープンソースのコードベースと、アクティベーションコレクション、SAEトレーニング、機能ステアリングのためのユーザフレンドリーなインターフェースを提供しています。
私たちのプロジェクトページはhttp://drvla.github.ioにあります。
関連論文リスト
- UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models [25.401818528256232]
Uncertainty-Aware Observation Reinjection (UAOR) は、Vision-Language-Action (VLA) モデルのための、効果的で、トレーニングのない、プラグアンドプレイモジュールである。
シミュレーションや実世界のタスクにおいて,オーバーヘッドを最小限に抑えながら多様なVLAモデルを継続的に改善する。
論文 参考訳(メタデータ) (2026-02-20T06:22:21Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。