論文の概要: VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.07335v1
- Date: Sat, 07 Mar 2026 20:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.302895
- Title: VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
- Title(参考訳): VisualScratchpad:視覚言語モデルにおける推論時視覚概念解析
- Authors: Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han,
- Abstract要約: 推論中の視覚的概念分析のための対話型インタフェースであるVisualScratchpadを紹介する。
視覚エンコーダにスパースオートエンコーダを適用し,テキスト・ツー・イメージ・アテンションを介して視覚概念をテキストトークンにリンクする。
VisualScratchpadはまたトークンラテントヒートマップビューも提供しており、因果解析における効果的な概念アブレーションに十分なラテントのセットを示唆している。
- 参考スコア(独自算出の注目度): 81.7389759509619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-performing vision language models still produce incorrect answers, yet their failure modes are often difficult to explain. To make model internals more accessible and enable systematic debugging, we introduce VisualScratchpad, an interactive interface for visual concept analysis during inference. We apply sparse autoencoders to the vision encoder and link the resulting visual concepts to text tokens via text-to-image attention, allowing us to examine which visual concepts are both captured by the vision encoder and utilized by the language model. VisualScratchpad also provides a token-latent heatmap view that suggests a sufficient set of latents for effective concept ablation in causal analysis. Through case studies, we reveal three underexplored failure modes: limited cross-modal alignment, misleading visual concepts, and unused hidden cues. Project page: https://hyesulim.github.io/visual_scratchpad_projectpage/
- Abstract(参考訳): ハイパフォーマンスな視覚言語モデルはいまだに誤った答えを生み出すが、その失敗モードは説明が難しいことが多い。
モデル内部をよりアクセスしやすくし,系統的なデバッグを可能にするために,推論時に視覚的概念分析を行う対話型インターフェースであるVisualScratchpadを導入する。
視覚エンコーダにスパースオートエンコーダを適用し,得られた視覚概念をテキスト・ツー・イメージ・アテンションを介してテキストトークンにリンクし,視覚エンコーダがどの視覚概念をキャプチャし,言語モデルが利用するかを調べる。
VisualScratchpadはまたトークンラテントヒートマップビューを提供しており、因果解析における効果的な概念アブレーションに十分なレイトセットを提案する。
ケーススタディを通じて、クロスモーダルアライメントの制限、誤解を招く視覚概念、未使用の隠れキューの3つの未調査の障害モードを明らかにした。
プロジェクトページ: https://hyesulim.github.io/visual_scratchpad_projectpage/
関連論文リスト
- Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - ViConEx-Med: Visual Concept Explainability via Multi-Concept Token Transformer for Medical Image Analysis [5.887969742827489]
ViConEx-Medは、視覚的概念の説明可能性のためのトランスフォーマーベースのフレームワークである。
提案手法は,高い予測精度を維持しつつ,概念レベルのローカライズマップを生成する。
人工的および実世界の医療データセットの実験は、ViConEx-Medが従来のコンセプトベースモデルより優れていることを示した。
論文 参考訳(メタデータ) (2025-10-11T11:24:47Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual
Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。
本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-17T03:14:00Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。