Fugu-MT 論文翻訳(概要): Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability

論文の概要: Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability

arxiv url: http://arxiv.org/abs/2502.14889v1
Date: Sun, 16 Feb 2025 19:01:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 23:44:09.959153
Title: Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability
Title（参考訳）: マルチモーダル画像-テキスト表現の解釈可能性に関するナローリング情報ボトルネック理論
Authors: Zhiyu Zhu, Zhibo Jin, Jiayu Zhang, Nan Yang, Jiahao Huang, Jianlong Zhou, Fang Chen,
Abstract要約: Narrowing Information Bottleneck Theoryは、従来のボトルネックアプローチを再定義する新しいフレームワークである。提案手法は,画像の解釈可能性の平均9%,テキストの解釈可能性の平均58.83%を向上し,処理速度63.95%を高速化する。
参考スコア（独自算出の注目度）: 15.155556606996994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of identifying multimodal image-text representations has garnered increasing attention, particularly with models such as CLIP (Contrastive Language-Image Pretraining), which demonstrate exceptional performance in learning complex associations between images and text. Despite these advancements, ensuring the interpretability of such models is paramount for their safe deployment in real-world applications, such as healthcare. While numerous interpretability methods have been developed for unimodal tasks, these approaches often fail to transfer effectively to multimodal contexts due to inherent differences in the representation structures. Bottleneck methods, well-established in information theory, have been applied to enhance CLIP's interpretability. However, they are often hindered by strong assumptions or intrinsic randomness. To overcome these challenges, we propose the Narrowing Information Bottleneck Theory, a novel framework that fundamentally redefines the traditional bottleneck approach. This theory is specifically designed to satisfy contemporary attribution axioms, providing a more robust and reliable solution for improving the interpretability of multimodal models. In our experiments, compared to state-of-the-art methods, our approach enhances image interpretability by an average of 9%, text interpretability by an average of 58.83%, and accelerates processing speed by 63.95%. Our code is publicly accessible at https://github.com/LMBTough/NIB.
Abstract（参考訳）: 特にCLIP(Contrastive Language- Image Pretraining)のようなモデルでは,画像とテキストの複雑な関連を学習する際の異常なパフォーマンスを示す。これらの進歩にもかかわらず、そのようなモデルの解釈可能性を保証することは、医療などの現実世界のアプリケーションに安全なデプロイを行う上で最重要である。ユニモーダルなタスクに対して多くの解釈可能性法が開発されているが、これらの手法は表現構造に固有の違いがあるため、しばしばマルチモーダルなコンテキストに効果的に転送できない。情報理論において確立されたボトルネック法は、CLIPの解釈可能性を高めるために応用されている。しかし、それらはしばしば強い仮定や本質的なランダム性によって妨げられる。これらの課題を克服するために、従来のボトルネックアプローチを根本的に再定義する新しいフレームワークであるNarrowing Information Bottleneck Theoryを提案する。この理論は、同時代の帰属公理を満たすように設計されており、マルチモーダルモデルの解釈可能性を改善するためのより堅牢で信頼性の高いソリューションを提供する。実験では,最先端手法と比較して,画像の解釈可能性の平均が9%向上し,テキストの解釈可能性の平均が58.83%向上し,処理速度が63.95%向上した。私たちのコードはhttps://github.com/LMBTough/NIB.comで公開されています。

関連論文リスト

CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization [13.867420348797783]
本稿では,暗黙的な情報ボトルネック最適化として,クロスモーダル・インフォメーション・ボトルネック(CIB)フレームワークを提案する。この観点では、モデルはモダリティ固有の冗長性を捨てながら、共有モダリティ情報の最大化を行う。我々は、これらのICB原則をトレーニング中に明示的に適用するクロスモーダル情報ボトルネック規則化(CIBR)手法を導入する。
論文参考訳（メタデータ） (2025-03-31T15:00:01Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
A Statistical Theory of Contrastive Pre-training and Multimodal Generative AI [18.974297347310287]
マルチモーダル生成AIシステムは、異なるモーダルの表現を学ぶために、対照的な事前学習に依存している。本稿では、下流タスクにおける対照的な事前学習の成功を説明するための理論的枠組みを開発する。
論文参考訳（メタデータ） (2025-01-08T17:47:06Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-06-10T06:29:00Z)
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文参考訳（メタデータ） (2022-10-11T10:54:54Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文参考訳（メタデータ） (2020-11-03T11:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。