Fugu-MT 論文翻訳(概要): Finetuning Pretrained Vision-Language Models with Correlation Information Bottleneck for Robust Visual Question Answering

論文の概要: Finetuning Pretrained Vision-Language Models with Correlation Information Bottleneck for Robust Visual Question Answering

arxiv url: http://arxiv.org/abs/2209.06954v1
Date: Wed, 14 Sep 2022 22:04:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 12:53:37.598662
Title: Finetuning Pretrained Vision-Language Models with Correlation Information Bottleneck for Robust Visual Question Answering
Title（参考訳）: 相関情報付き視覚言語モデルを用いたロバストな視覚質問応答のための微調整
Authors: Jingjing Jiang, Ziyi Liu, Nanning Zheng
Abstract要約: 相関情報ボトルネック(CIB)の原理は、表現圧縮と冗長性のトレードオフを求める。 CIBは、対称性付き関節MI推定により、視覚的および言語的入力と表現の間の内部相関を測定する。入力ロバスト性に関する5つのVQAベンチマークと、人間対人ロバスト性に関する2つのVQAベンチマークの実験は、提案したCIBの有効性と優位性を示している。
参考スコア（独自算出の注目度）: 63.87200781247364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benefiting from large-scale Pretrained Vision-Language Models (VL-PMs), the performance of Visual Question Answering (VQA) has started to approach human oracle performance. However, finetuning large-scale VL-PMs with limited data for VQA usually faces overfitting and poor generalization issues, leading to a lack of robustness. In this paper, we aim to improve the robustness of VQA systems (ie, the ability of the systems to defend against input variations and human-adversarial attacks) from the perspective of Information Bottleneck when finetuning VL-PMs for VQA. Generally, internal representations obtained by VL-PMs inevitably contain irrelevant and redundant information for the downstream VQA task, resulting in statistically spurious correlations and insensitivity to input variations. To encourage representations to converge to a minimal sufficient statistic in vision-language learning, we propose the Correlation Information Bottleneck (CIB) principle, which seeks a tradeoff between representation compression and redundancy by minimizing the mutual information (MI) between the inputs and internal representations while maximizing the MI between the outputs and the representations. Meanwhile, CIB measures the internal correlations among visual and linguistic inputs and representations by a symmetrized joint MI estimation. Extensive experiments on five VQA benchmarks of input robustness and two VQA benchmarks of human-adversarial robustness demonstrate the effectiveness and superiority of the proposed CIB in improving the robustness of VQA systems.
Abstract（参考訳）: VL-PM(Pretrained Vision-Language Models)の大規模化により,VQA(Visual Question Answering)のパフォーマンスが人間のオラクルのパフォーマンスに近づき始めている。しかしながら、VQAの限られたデータを持つ大規模VL-PMの微調整は通常、過度な適合と一般化の問題に直面し、堅牢性の欠如につながっている。本稿では,VQA用VL-PMを微調整する場合のインフォメーション・ボトルネックの観点から,VQAシステムのロバスト性(すなわち,入力変動や人的攻撃に対する防御能力)を向上させることを目的とする。一般に、VL-PMによって得られる内部表現は、下流のVQAタスクに必然的に無関係で冗長な情報を含む。視覚言語学習における表現を最小限の統計量に収束させるために,入力と内部表現間の相互情報(MI)を最小化し,出力と表現の間のMIを最大化することにより,表現圧縮と冗長性のトレードオフを求める相関情報ボトルネック(CIB)原理を提案する。一方、CIBは、対称性付き関節MI推定により、視覚的および言語的入力と表現の内的相関を測定する。入力ロバスト性の5つのVQAベンチマークと、人間対人ロバスト性の2つのVQAベンチマークの広範な実験は、VQAシステムのロバスト性を改善するためのCIBの有効性と優位性を示している。

関連論文リスト

Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.20124264650572]
MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。 MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-05T02:37:41Z)
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文参考訳（メタデータ） (2024-11-21T14:01:42Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Adaptive Contrastive Learning on Multimodal Transformer for Review Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。さらに,コントラスト学習における適応重み付け方式を提案する。最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文参考訳（メタデータ） (2022-11-07T13:05:56Z)
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文参考訳（メタデータ） (2022-10-11T10:54:54Z)
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文参考訳（メタデータ） (2022-02-02T23:54:26Z)
Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文参考訳（メタデータ） (2020-07-01T09:06:20Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。