Fugu-MT 論文翻訳(概要): Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution

論文の概要: Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution

arxiv url: http://arxiv.org/abs/2312.17174v1
Date: Thu, 28 Dec 2023 18:02:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 15:22:42.286142
Title: Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution
Title（参考訳）: マルチモーダル情報を用いた画像テキスト表現の視覚的説明
Authors: Ying Wang, Tim G. J. Rudner, Andrew Gordon Wilson
Abstract要約: 視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
参考スコア（独自算出の注目度）: 55.9275401570741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language pretrained models have seen remarkable success, but their application to safety-critical settings is limited by their lack of interpretability. To improve the interpretability of vision-language models such as CLIP, we propose a multi-modal information bottleneck (M2IB) approach that learns latent representations that compress irrelevant information while preserving relevant visual and textual features. We demonstrate how M2IB can be applied to attribution analysis of vision-language pretrained models, increasing attribution accuracy and improving the interpretability of such models when applied to safety-critical domains such as healthcare. Crucially, unlike commonly used unimodal attribution methods, M2IB does not require ground truth labels, making it possible to audit representations of vision-language pretrained models when multiple modalities but no ground-truth data is available. Using CLIP as an example, we demonstrate the effectiveness of M2IB attribution and show that it outperforms gradient-based, perturbation-based, and attention-based attribution methods both qualitatively and quantitatively.
Abstract（参考訳）: 視覚言語による事前学習モデルは非常に成功したが、その安全性に重要な設定への応用は、解釈可能性の欠如によって制限されている。クリップなどの視覚言語モデルの解釈性を向上させるために,視覚やテキストの特徴を維持しつつ,無関係な情報を圧縮する潜在表現を学習するマルチモーダル情報ボトルネック(m2ib)手法を提案する。本稿では,M2IBを視覚言語事前学習モデルの帰属分析に適用し,帰属精度を高め,医療などの安全クリティカル領域に適用した場合の解釈可能性を向上させる方法を示す。重要な点として、一般的に使われるユニモーダル属性法とは違って、M2IBは基礎的な真理ラベルを必要としないため、複数のモダリティがあるときに視覚言語で事前訓練されたモデルの表現を監査することができる。 CLIPを例として、M2IB属性の有効性を示し、勾配に基づく、摂動に基づく、注意に基づく属性法を質的かつ定量的に上回ることを示す。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Can Generated Images Serve as a Viable Modality for Text-Centric Multimodal Learning? [3.966028515034415]
本研究は,テキスト・トゥ・イメージ(T2I)モデルにより生成した画像が,テキスト中心のタスクにおいて重要な相補的モダリティとして機能するかどうかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-21T07:32:09Z)
How Bidirectionality Helps Language Models Learn Better via Dynamic Bottleneck Estimation [4.670329628077522]
双方向言語モデルは、自然言語理解タスクにおける一方向モデルよりもコンテキスト理解が優れ、パフォーマンスがよい。トレーニング中の相互情報を動的かつスケーラブルに推定するFlowNIBを提案する。両方向モデルが相互情報をより多く保持し,一方向モデルよりも高次元性を示すことを示す。
論文参考訳（メタデータ） (2025-06-01T06:56:45Z)
VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。 VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文参考訳（メタデータ） (2024-09-23T04:50:36Z)
Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文参考訳（メタデータ） (2024-07-05T13:15:29Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。 LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文参考訳（メタデータ） (2024-02-01T18:55:29Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文参考訳（メタデータ） (2022-10-09T15:40:13Z)
DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。 DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文参考訳（メタデータ） (2022-07-04T11:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。