論文の概要: Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering
- arxiv url: http://arxiv.org/abs/2209.06954v3
- Date: Sat, 6 May 2023 17:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:25:00.281349
- Title: Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering
- Title(参考訳): 相関情報ボトルネック:ロバストな視覚質問応答に対する事前学習型マルチモーダルモデルの適用に向けて
- Authors: Jingjing Jiang, Ziyi Liu, Nanning Zheng
- Abstract要約: 相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
- 参考スコア(独自算出の注目度): 63.87200781247364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from large-scale pretrained vision language models (VLMs), the
performance of visual question answering (VQA) has approached human oracles.
However, finetuning such models on limited data often suffers from overfitting
and poor generalization issues, leading to a lack of model robustness. In this
paper, we aim to improve input robustness from an information bottleneck
perspective when adapting pretrained VLMs to the downstream VQA task. Input
robustness refers to the ability of models to defend against visual and
linguistic input variations, as well as shortcut learning involved in inputs.
Generally, the representations obtained by pretrained VLMs inevitably contain
irrelevant and redundant information for a specific downstream task, resulting
in statistically spurious correlations and insensitivity to input variations.
To encourage representations to converge to a minimal sufficient statistic in
multimodal learning, we propose Correlation Information Bottleneck (CIB), which
seeks a tradeoff between compression and redundancy in representations by
minimizing the mutual information (MI) between inputs and representations while
maximizing the MI between outputs and representations. Moreover, we derive a
tight theoretical upper bound for the mutual information between multimodal
inputs and representations, incorporating different internal correlations that
guide models to learn more robust representations and facilitate modality
alignment. Extensive experiments consistently demonstrate the effectiveness and
superiority of the proposed CIB in terms of input robustness and accuracy.
- Abstract(参考訳): 大規模事前学習型視覚言語モデル(VLM)の恩恵を受け、視覚質問応答(VQA)の性能は人間のオラクルに接近した。
しかし、そのようなモデルを限られたデータで微調整することは、しばしば過剰適合と一般化の問題に悩まされ、モデルの堅牢性が欠如する。
本稿では,事前学習したVLMを下流VQAタスクに適用する場合に,情報ボトルネックの観点から入力ロバスト性を改善することを目的とする。
入力堅牢性は、入力に関わるショートカット学習と同様に、視覚的および言語的入力のバリエーションからモデルを守る能力を指す。
一般に、事前訓練されたVLMによって得られた表現は、特定の下流タスクに対して必然的に無関係かつ冗長な情報を含み、統計的に突発的な相関と入力変動に対する感度をもたらす。
マルチモーダル学習において、表現を最小限の統計量に収束させるために、入力と表現間の相互情報(MI)を最小化し、出力と表現の間のMIを最大化し、圧縮と冗長性のトレードオフを求める相関情報ボトルネック(CIB)を提案する。
さらに,マルチモーダル入力と表現の相互情報に対する密接な理論上の上限を導出し,モデルがより強固な表現を学習し,モダリティアライメントを促進するために異なる内部相関を組み込んだ。
広範囲にわたる実験は、入力の堅牢性と精度の観点から提案されたCIBの有効性と優位性を一貫して示している。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。
本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。
敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2020-07-01T09:06:20Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。