論文の概要: VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing
- arxiv url: http://arxiv.org/abs/2605.30117v1
- Date: Thu, 28 May 2026 15:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.454571
- Title: VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing
- Title(参考訳): VLAトラス:表現と行動追跡による視覚・言語・行動モデル診断
- Authors: Haoyuan Shi, Xiancong Ren, Yingji Zhang, Qinfan Zhang, Jiayu Hu, Haozhe Shan, Han Dong, Jinpeng Lu, Yinda Chen, Yi Zhang, Yong Dai, Xiaozhu Ju,
- Abstract要約: VLA(Vision-Language-Action)モデルは、マルチモーダル知識を具体化制御に変換する。
本稿では,VLAモデルを統一的なエビデンスチェーンを通じて解析する,進歩的診断フレームワークであるVLA-Traceを紹介する。
- 参考スコア(独自算出の注目度): 12.088525050678713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how Vision-Language-Action (VLA) models transform multimodal knowledge into embodied control remains an open challenge. We present VLA-Trace, a progressive diagnostic framework that analyzes VLA models through a unified evidence chain from representation dynamics to causal control attribution and behavioral manifestation. It specifically combines cross-modal and checkpoint-drift centered kernel alignment (CKA) to trace representation evolution, attention knockout interventions to identify modality-specific control pathways, and rollout-level behavioral probes to examine grounding, shortcut dependence, and semantic following. Experiments on $π_{0.5}$ and OpenVLA reveal three key findings. First, the two models exhibit distinct modality-specific adaptation dynamics during VLA finetuning. Second, they rely on different multimodal routing strategies and layer-wise dependencies during action decoding. Third, although VLA policies excel at visually grounded trajectory generation, they remain limited in fine-grained semantic following. These findings highlight future directions for representation-preserving adaptation, causal VLA circuits, and compositional semantic control.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルがマルチモーダル知識を具体化制御に変換する方法を理解することは、依然としてオープンな課題である。
VLA-Traceは,表現力学から因果制御属性,行動表現に至るまで,統一されたエビデンスチェーンを通じてVLAモデルを解析する進化的診断フレームワークである。
具体的には、クロスモーダルとチェックポイントドリフト中心核アライメント(CKA)を、表現の進化のトレース、モダリティ固有の制御経路を識別するための注意ノックアウト介入、グラウンドニング、ショートカット依存、セマンティックフォローを調べるロールアウトレベルの行動プローブと組み合わせている。
π_{0.5}$とOpenVLAの実験では、3つの重要な発見が明らかになった。
第一に、2つのモデルは、VLAファインタニング中に異なるモダリティ特異的適応ダイナミクスを示す。
第二に、アクションデコーディング中に異なるマルチモーダルルーティング戦略とレイヤワイズ依存に依存している。
第3に、VLAポリシーは、視覚的に接地された軌道生成において優れているが、細粒度のセマンティックスに制限されている。
これらの知見は, 表現保存適応, 因果VLA回路, 構成意味制御の今後の方向性を明らかにする。
関連論文リスト
- Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models [22.535916867005955]
LVLM(Large Vision-Language Models)は、視覚言語タスクにおいて優れた性能を示すが、幻覚に苦しむ。
本研究では,幻覚軽減のためのトレーニング不要アプローチである動的マルチモーダルアクティベーションステアリングを提案する。
論文 参考訳(メタデータ) (2026-02-25T09:10:00Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation [53.323488295994395]
ソースフリーアクティブドメイン適応(SFADA)は、アクティブラーニングによって選択された限られた手動ラベルを用いて、ソースモデルから未ラベルのターゲットドメインへの知識伝達を強化する。
マルチモーダル・ファンデーション・モデルを用いたデュアルアクティブ・ラーニング(DAM)を提案する。
大規模な実験では、DAMは既存のメソッドを一貫して上回り、複数のSFADAベンチマークとアクティブな学習戦略で新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2025-09-29T15:06:56Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。