論文の概要: Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering
- arxiv url: http://arxiv.org/abs/2209.06954v3
- Date: Sat, 6 May 2023 17:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:25:00.281349
- Title: Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering
- Title(参考訳): 相関情報ボトルネック:ロバストな視覚質問応答に対する事前学習型マルチモーダルモデルの適用に向けて
- Authors: Jingjing Jiang, Ziyi Liu, Nanning Zheng
- Abstract要約: 相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
- 参考スコア(独自算出の注目度): 63.87200781247364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from large-scale pretrained vision language models (VLMs), the
performance of visual question answering (VQA) has approached human oracles.
However, finetuning such models on limited data often suffers from overfitting
and poor generalization issues, leading to a lack of model robustness. In this
paper, we aim to improve input robustness from an information bottleneck
perspective when adapting pretrained VLMs to the downstream VQA task. Input
robustness refers to the ability of models to defend against visual and
linguistic input variations, as well as shortcut learning involved in inputs.
Generally, the representations obtained by pretrained VLMs inevitably contain
irrelevant and redundant information for a specific downstream task, resulting
in statistically spurious correlations and insensitivity to input variations.
To encourage representations to converge to a minimal sufficient statistic in
multimodal learning, we propose Correlation Information Bottleneck (CIB), which
seeks a tradeoff between compression and redundancy in representations by
minimizing the mutual information (MI) between inputs and representations while
maximizing the MI between outputs and representations. Moreover, we derive a
tight theoretical upper bound for the mutual information between multimodal
inputs and representations, incorporating different internal correlations that
guide models to learn more robust representations and facilitate modality
alignment. Extensive experiments consistently demonstrate the effectiveness and
superiority of the proposed CIB in terms of input robustness and accuracy.
- Abstract(参考訳): 大規模事前学習型視覚言語モデル(VLM)の恩恵を受け、視覚質問応答(VQA)の性能は人間のオラクルに接近した。
しかし、そのようなモデルを限られたデータで微調整することは、しばしば過剰適合と一般化の問題に悩まされ、モデルの堅牢性が欠如する。
本稿では,事前学習したVLMを下流VQAタスクに適用する場合に,情報ボトルネックの観点から入力ロバスト性を改善することを目的とする。
入力堅牢性は、入力に関わるショートカット学習と同様に、視覚的および言語的入力のバリエーションからモデルを守る能力を指す。
一般に、事前訓練されたVLMによって得られた表現は、特定の下流タスクに対して必然的に無関係かつ冗長な情報を含み、統計的に突発的な相関と入力変動に対する感度をもたらす。
マルチモーダル学習において、表現を最小限の統計量に収束させるために、入力と表現間の相互情報(MI)を最小化し、出力と表現の間のMIを最大化し、圧縮と冗長性のトレードオフを求める相関情報ボトルネック(CIB)を提案する。
さらに,マルチモーダル入力と表現の相互情報に対する密接な理論上の上限を導出し,モデルがより強固な表現を学習し,モダリティアライメントを促進するために異なる内部相関を組み込んだ。
広範囲にわたる実験は、入力の堅牢性と精度の観点から提案されたCIBの有効性と優位性を一貫して示している。
関連論文リスト
- Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。
本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。
敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2020-07-01T09:06:20Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。