Fugu-MT 論文翻訳(概要): Language Models Can Explain Visual Features via Steering

論文の概要: Language Models Can Explain Visual Features via Steering

arxiv url: http://arxiv.org/abs/2603.22593v2
Date: Wed, 25 Mar 2026 08:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 14:25:25.993346
Title: Language Models Can Explain Visual Features via Steering
Title（参考訳）: 言語モデルはステアリングによって視覚的特徴を説明できる
Authors: Javier Ferrando, Enrique Lopez-Cuena, Pablo Agustin Martin-Torres, Daniel Hinjos, Anna Arias-Duart, Dario Garcia-Gasulla,
Abstract要約: オートエンコーダは視覚モデルで何千もの機能を発見したが、人間の介入を必要とせずにこれらの機能を説明することは、まだオープンな課題である。空画像提供後の視覚エンコーダにおける視覚言語モデルの構造と個別SAE特徴を利用する。言語モデルに「何が見えるか」を説明し、各機能で表される視覚概念を効果的に引き出す。
参考スコア（独自算出の注目度）: 8.36855091633073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparse Autoencoders uncover thousands of features in vision models, yet explaining these features without requiring human intervention remains an open challenge. While previous work has proposed generating correlation-based explanations based on top activating input examples, we present a fundamentally different alternative based on causal interventions. We leverage the structure of Vision-Language Models and steer individual SAE features in the vision encoder after providing an empty image. Then, we prompt the language model to explain what it ``sees'', effectively eliciting the visual concept represented by each feature. Results show that Steering offers an scalable alternative that complements traditional approaches based on input examples, serving as a new axis for automated interpretability in vision models. Moreover, the quality of explanations improves consistently with the scale of the language model, highlighting our method as a promising direction for future research. Finally, we propose Steering-informed Top-k, a hybrid approach that combines the strengths of causal interventions and input-based approaches to achieve state-of-the-art explanation quality without additional computational cost.
Abstract（参考訳）: スパースオートエンコーダは、視覚モデルで何千もの機能を発見したが、人間の介入を必要とせずにこれらの機能を説明することは、まだオープンな課題である。従来の研究では、トップアクティベート入力例に基づく相関に基づく説明が提案されているが、因果的介入に基づく根本的に異なる代替案が提示されている。空画像提供後の視覚エンコーダにおける視覚言語モデルの構造と個別SAE特徴を利用する。そこで我々は,言語モデルに対して,それが'sees'であるのかを説明するように促し,各機能で表される視覚概念を効果的に引き出す。結果として、Steeringは、入力例に基づいて従来のアプローチを補完するスケーラブルな代替手段を提供し、視覚モデルにおける自動解釈可能性のための新しい軸として機能することを示している。さらに,説明の質は言語モデルのスケールと一貫して改善され,今後の研究に期待できる方向として,我々の手法が強調される。最後に,因果介入の強みと入力に基づくアプローチを組み合わせるハイブリッド手法であるステアリングインフォームドTop-kを提案する。

関連論文リスト

Towards Understanding Multimodal Fine-Tuning: Spatial Features [25.349396112139214]
Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
論文参考訳（メタデータ） (2026-02-06T18:48:18Z)
An Iterative Feedback Mechanism for Improving Natural Language Class Descriptions in Open-Vocabulary Object Detection [0.08974531206817744]
そこで本研究では,非技術ユーザを対象にした自然言語テキスト記述の改善手法を提案する。複数の公開可能なオープン語彙オブジェクト検出モデルで性能を示すことで,フィードバック機構がもたらす改善を定量化する。
論文参考訳（メタデータ） (2025-03-21T16:34:04Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文参考訳（メタデータ） (2024-04-03T10:11:22Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。