論文の概要: Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions
- arxiv url: http://arxiv.org/abs/2508.05430v1
- Date: Thu, 07 Aug 2025 14:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.904177
- Title: Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions
- Title(参考訳): 軽量バンジャフ相互作用を用いた視覚言語エンコーダの類似性の説明
- Authors: Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hüllermeier, Przemyslaw Biecek,
- Abstract要約: 言語画像事前学習(LIP)は、ゼロショット分類、ローカライゼーション、マルチモーダル検索、意味理解が可能な視覚言語モデルの開発を可能にする。
モデル類似度出力における入力画像とテキストのペアの重要性を可視化する様々な説明法が提案されている。
我々は、視覚言語エンコーダの類似性を分解するための統一的なアプローチとして、LIPモデルの忠実な相互作用説明(FIxLIP)を導入する。
- 参考スコア(独自算出の注目度): 25.897711293173362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-image pre-training (LIP) enables the development of vision-language models capable of zero-shot classification, localization, multimodal retrieval, and semantic understanding. Various explanation methods have been proposed to visualize the importance of input image-text pairs on the model's similarity outputs. However, popular saliency maps are limited by capturing only first-order attributions, overlooking the complex cross-modal interactions intrinsic to such encoders. We introduce faithful interaction explanations of LIP models (FIxLIP) as a unified approach to decomposing the similarity in vision-language encoders. FIxLIP is rooted in game theory, where we analyze how using the weighted Banzhaf interaction index offers greater flexibility and improves computational efficiency over the Shapley interaction quantification framework. From a practical perspective, we propose how to naturally extend explanation evaluation metrics, like the pointing game and area between the insertion/deletion curves, to second-order interaction explanations. Experiments on MS COCO and ImageNet-1k benchmarks validate that second-order methods like FIxLIP outperform first-order attribution methods. Beyond delivering high-quality explanations, we demonstrate the utility of FIxLIP in comparing different models like CLIP vs. SigLIP-2 and ViT-B/32 vs. ViT-L/16.
- Abstract(参考訳): 言語画像事前学習(LIP)は、ゼロショット分類、ローカライゼーション、マルチモーダル検索、意味理解が可能な視覚言語モデルの開発を可能にする。
モデル類似度出力における入力画像とテキストのペアの重要性を可視化する様々な説明法が提案されている。
しかし、一般的なサリエンシマップは、そのようなエンコーダに固有の複雑なクロスモーダル相互作用を見越して、一階の属性のみをキャプチャすることで制限される。
我々は、視覚言語エンコーダの類似性を分解するための統一的なアプローチとして、LIPモデルの忠実な相互作用説明(FIxLIP)を導入する。
FIxLIPはゲーム理論に根ざしており、重み付けされたBanzhaf相互作用指数を用いることでより柔軟性が得られ、Shapley相互作用量子化フレームワークよりも計算効率が向上する。
実践的な観点から,挿入/削除曲線間のポインティングゲームや領域といった説明評価指標を2階の相互作用説明に自然に拡張する方法を提案する。
MS COCOとImageNet-1kベンチマークの実験では、FIxLIPのような2次法が1次帰属法より優れていることが検証された。
高品質な説明を提供する以外に、CLIP vs. SigLIP-2 や ViT-B/32 vs. ViT-L/16 といった異なるモデルの比較において、FIxLIP の有用性を実証する。
関連論文リスト
- Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。
この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文 参考訳(メタデータ) (2025-06-30T13:14:46Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - Explaining Caption-Image Interactions in CLIP models with Second-Order Attributions [28.53636082915161]
CLIPモデルは、2種類の入力を共有埋め込み空間にマッピングし、それらの類似性を予測します。
しかし、その成功にもかかわらず、これらのモデルがどのように2つの入力を比較するかは理解されていない。
一般的な1次特徴属性法は、デュアルエンコーダに対する限られた洞察しか提供できない。
論文 参考訳(メタデータ) (2024-08-26T09:55:34Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。