論文の概要: Visual Explanations of Image-Text Representations via Multi-Modal
Information Bottleneck Attribution
- arxiv url: http://arxiv.org/abs/2312.17174v1
- Date: Thu, 28 Dec 2023 18:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:22:42.286142
- Title: Visual Explanations of Image-Text Representations via Multi-Modal
Information Bottleneck Attribution
- Title(参考訳): マルチモーダル情報を用いた画像テキスト表現の視覚的説明
- Authors: Ying Wang, Tim G. J. Rudner, Andrew Gordon Wilson
- Abstract要約: 視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
- 参考スコア(独自算出の注目度): 55.9275401570741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pretrained models have seen remarkable success, but their
application to safety-critical settings is limited by their lack of
interpretability. To improve the interpretability of vision-language models
such as CLIP, we propose a multi-modal information bottleneck (M2IB) approach
that learns latent representations that compress irrelevant information while
preserving relevant visual and textual features. We demonstrate how M2IB can be
applied to attribution analysis of vision-language pretrained models,
increasing attribution accuracy and improving the interpretability of such
models when applied to safety-critical domains such as healthcare. Crucially,
unlike commonly used unimodal attribution methods, M2IB does not require ground
truth labels, making it possible to audit representations of vision-language
pretrained models when multiple modalities but no ground-truth data is
available. Using CLIP as an example, we demonstrate the effectiveness of M2IB
attribution and show that it outperforms gradient-based, perturbation-based,
and attention-based attribution methods both qualitatively and quantitatively.
- Abstract(参考訳): 視覚言語による事前学習モデルは非常に成功したが、その安全性に重要な設定への応用は、解釈可能性の欠如によって制限されている。
クリップなどの視覚言語モデルの解釈性を向上させるために,視覚やテキストの特徴を維持しつつ,無関係な情報を圧縮する潜在表現を学習するマルチモーダル情報ボトルネック(m2ib)手法を提案する。
本稿では,M2IBを視覚言語事前学習モデルの帰属分析に適用し,帰属精度を高め,医療などの安全クリティカル領域に適用した場合の解釈可能性を向上させる方法を示す。
重要な点として、一般的に使われるユニモーダル属性法とは違って、M2IBは基礎的な真理ラベルを必要としないため、複数のモダリティがあるときに視覚言語で事前訓練されたモデルの表現を監査することができる。
CLIPを例として、M2IB属性の有効性を示し、勾配に基づく、摂動に基づく、注意に基づく属性法を質的かつ定量的に上回ることを示す。
関連論文リスト
- VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。
VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文 参考訳(メタデータ) (2024-09-23T04:50:36Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。