論文の概要: Attention, Please! PixelSHAP Reveals What Vision-Language Models Actually Focus On
- arxiv url: http://arxiv.org/abs/2503.06670v1
- Date: Sun, 09 Mar 2025 15:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:17.084458
- Title: Attention, Please! PixelSHAP Reveals What Vision-Language Models Actually Focus On
- Title(参考訳): PixelSHAPが目指すビジョンランゲージモデル(動画あり)
- Authors: Roni Goldshmidt,
- Abstract要約: PixelSHAPは、Shapleyベースの分析を構造化ビジュアルエンティティに拡張するフレームワークである。
画像オブジェクトを体系的に摂動させ、VLMの応答に対するその影響を定量化することにより、視覚に基づく推論に適用する。
多様な埋め込みベースの類似度メトリクスをサポートし、Shapleyベースのメソッドにインスパイアされた最適化技術を使用して効率よくスケールする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Interpretability in Vision-Language Models (VLMs) is crucial for trust, debugging, and decision-making in high-stakes applications. We introduce PixelSHAP, a model-agnostic framework extending Shapley-based analysis to structured visual entities. Unlike previous methods focusing on text prompts, PixelSHAP applies to vision-based reasoning by systematically perturbing image objects and quantifying their influence on a VLM's response. PixelSHAP requires no model internals, operating solely on input-output pairs, making it compatible with open-source and commercial models. It supports diverse embedding-based similarity metrics and scales efficiently using optimization techniques inspired by Shapley-based methods. We validate PixelSHAP in autonomous driving, highlighting its ability to enhance interpretability. Key challenges include segmentation sensitivity and object occlusion. Our open-source implementation facilitates further research.
- Abstract(参考訳): VLM(Vision-Language Models)の解釈可能性は、高精細なアプリケーションにおける信頼、デバッグ、意思決定に不可欠である。
我々は、Shapleyに基づく分析を構造化ビジュアルエンティティに拡張するモデルに依存しないフレームワークであるPixelSHAPを紹介する。
テキストプロンプトに焦点を当てた従来の方法とは異なり、PixelSHAPは画像オブジェクトを体系的に摂動させ、VLMの応答への影響を定量化することにより、視覚ベースの推論に適用する。
PixelSHAPは、入出力ペアのみで動作するモデル内部を必要としないため、オープンソースおよび商用モデルと互換性がある。
多様な埋め込みベースの類似度メトリクスをサポートし、Shapleyベースのメソッドにインスパイアされた最適化技術を使用して効率よくスケールする。
自律運転におけるPixelSHAPの有効性を検証し、解釈可能性を高める能力を強調した。
主な課題はセグメンテーション感度とオブジェクトの排除である。
我々のオープンソース実装はさらなる研究を促進する。
関連論文リスト
- Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - PixelWorld: Towards Perceiving Everything as Pixels [50.13953243722129]
我々は,すべてのモダリティ(テキスト,テーブル,コード,図,画像など)をピクセル入力として統一することを提案する。
既存のモデルの性能を評価するために、上述したすべてのモダリティをピクセル空間に統合する新しい評価スイートであるPixelWorldを紹介した。
論文 参考訳(メタデータ) (2025-01-31T17:39:21Z) - Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Towards Training-free Open-world Segmentation via Image Prompt Foundation Models [13.720784509709496]
Image Prompt(IPSeg)は、画像プロンプト技術を利用したトレーニングフリーのパラダイムである。
IPSegは、主観的視覚概念を含む単一のイメージを、視覚基盤モデルをクエリするための柔軟なプロンプトとして利用する。
提案手法は,プロンプト画像と入力画像のロバストな特徴を抽出し,入力表現とプロンプト表現とのマッチングを行う。
論文 参考訳(メタデータ) (2023-10-17T01:12:08Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Combining Counterfactuals With Shapley Values To Explain Image Models [13.671174461441304]
我々は、反事実を生成し、Shapley値を推定するパイプラインを開発する。
我々は強い公理的保証を持つ対照的で解釈可能な説明を得る。
論文 参考訳(メタデータ) (2022-06-14T18:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。