論文の概要: Visual Explanations of Image-Text Representations via Multi-Modal
Information Bottleneck Attribution
- arxiv url: http://arxiv.org/abs/2312.17174v1
- Date: Thu, 28 Dec 2023 18:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:22:42.286142
- Title: Visual Explanations of Image-Text Representations via Multi-Modal
Information Bottleneck Attribution
- Title(参考訳): マルチモーダル情報を用いた画像テキスト表現の視覚的説明
- Authors: Ying Wang, Tim G. J. Rudner, Andrew Gordon Wilson
- Abstract要約: 視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
- 参考スコア(独自算出の注目度): 55.9275401570741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pretrained models have seen remarkable success, but their
application to safety-critical settings is limited by their lack of
interpretability. To improve the interpretability of vision-language models
such as CLIP, we propose a multi-modal information bottleneck (M2IB) approach
that learns latent representations that compress irrelevant information while
preserving relevant visual and textual features. We demonstrate how M2IB can be
applied to attribution analysis of vision-language pretrained models,
increasing attribution accuracy and improving the interpretability of such
models when applied to safety-critical domains such as healthcare. Crucially,
unlike commonly used unimodal attribution methods, M2IB does not require ground
truth labels, making it possible to audit representations of vision-language
pretrained models when multiple modalities but no ground-truth data is
available. Using CLIP as an example, we demonstrate the effectiveness of M2IB
attribution and show that it outperforms gradient-based, perturbation-based,
and attention-based attribution methods both qualitatively and quantitatively.
- Abstract(参考訳): 視覚言語による事前学習モデルは非常に成功したが、その安全性に重要な設定への応用は、解釈可能性の欠如によって制限されている。
クリップなどの視覚言語モデルの解釈性を向上させるために,視覚やテキストの特徴を維持しつつ,無関係な情報を圧縮する潜在表現を学習するマルチモーダル情報ボトルネック(m2ib)手法を提案する。
本稿では,M2IBを視覚言語事前学習モデルの帰属分析に適用し,帰属精度を高め,医療などの安全クリティカル領域に適用した場合の解釈可能性を向上させる方法を示す。
重要な点として、一般的に使われるユニモーダル属性法とは違って、M2IBは基礎的な真理ラベルを必要としないため、複数のモダリティがあるときに視覚言語で事前訓練されたモデルの表現を監査することができる。
CLIPを例として、M2IB属性の有効性を示し、勾配に基づく、摂動に基づく、注意に基づく属性法を質的かつ定量的に上回ることを示す。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。