論文の概要: Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
- arxiv url: http://arxiv.org/abs/2502.14889v1
- Date: Sun, 16 Feb 2025 19:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:51:38.580297
- Title: Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
- Title(参考訳): マルチモーダル画像-テキスト表現の解釈可能性に関するナローリング情報ボトルネック理論
- Authors: Zhiyu Zhu, Zhibo Jin, Jiayu Zhang, Nan Yang, Jiahao Huang, Jianlong Zhou, Fang Chen,
- Abstract要約: Narrowing Information Bottleneck Theoryは、従来のボトルネックアプローチを再定義する新しいフレームワークである。
提案手法は,画像の解釈可能性の平均9%,テキストの解釈可能性の平均58.83%を向上し,処理速度63.95%を高速化する。
- 参考スコア(独自算出の注目度): 15.155556606996994
- License:
- Abstract: The task of identifying multimodal image-text representations has garnered increasing attention, particularly with models such as CLIP (Contrastive Language-Image Pretraining), which demonstrate exceptional performance in learning complex associations between images and text. Despite these advancements, ensuring the interpretability of such models is paramount for their safe deployment in real-world applications, such as healthcare. While numerous interpretability methods have been developed for unimodal tasks, these approaches often fail to transfer effectively to multimodal contexts due to inherent differences in the representation structures. Bottleneck methods, well-established in information theory, have been applied to enhance CLIP's interpretability. However, they are often hindered by strong assumptions or intrinsic randomness. To overcome these challenges, we propose the Narrowing Information Bottleneck Theory, a novel framework that fundamentally redefines the traditional bottleneck approach. This theory is specifically designed to satisfy contemporary attribution axioms, providing a more robust and reliable solution for improving the interpretability of multimodal models. In our experiments, compared to state-of-the-art methods, our approach enhances image interpretability by an average of 9%, text interpretability by an average of 58.83%, and accelerates processing speed by 63.95%. Our code is publicly accessible at https://github.com/LMBTough/NIB.
- Abstract(参考訳): 特にCLIP(Contrastive Language- Image Pretraining)のようなモデルでは,画像とテキストの複雑な関連を学習する際の異常なパフォーマンスを示す。
これらの進歩にもかかわらず、そのようなモデルの解釈可能性を保証することは、医療などの現実世界のアプリケーションに安全なデプロイを行う上で最重要である。
ユニモーダルなタスクに対して多くの解釈可能性法が開発されているが、これらの手法は表現構造に固有の違いがあるため、しばしばマルチモーダルなコンテキストに効果的に転送できない。
情報理論において確立されたボトルネック法は、CLIPの解釈可能性を高めるために応用されている。
しかし、それらはしばしば強い仮定や本質的なランダム性によって妨げられる。
これらの課題を克服するために、従来のボトルネックアプローチを根本的に再定義する新しいフレームワークであるNarrowing Information Bottleneck Theoryを提案する。
この理論は、同時代の帰属公理を満たすように設計されており、マルチモーダルモデルの解釈可能性を改善するためのより堅牢で信頼性の高いソリューションを提供する。
実験では,最先端手法と比較して,画像の解釈可能性の平均が9%向上し,テキストの解釈可能性の平均が58.83%向上し,処理速度が63.95%向上した。
私たちのコードはhttps://github.com/LMBTough/NIB.comで公開されています。
関連論文リスト
- A Statistical Theory of Contrastive Pre-training and Multimodal Generative AI [18.974297347310287]
マルチモーダル生成AIシステムは、異なるモーダルの表現を学ぶために、対照的な事前学習に依存している。
本稿では、下流タスクにおける対照的な事前学習の成功を説明するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-01-08T17:47:06Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。
これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。
トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文 参考訳(メタデータ) (2024-12-10T20:36:49Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-06-10T06:29:00Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。