論文の概要: MAP: Modality-Agnostic Uncertainty-Aware Vision-Language Pre-training
Model
- arxiv url: http://arxiv.org/abs/2210.05335v1
- Date: Tue, 11 Oct 2022 10:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:36:12.684338
- Title: MAP: Modality-Agnostic Uncertainty-Aware Vision-Language Pre-training
Model
- Title(参考訳): map:不確かさを欠く不確かさを認識できる視覚言語事前学習モデル
- Authors: Yatai Ji, Junjie Wang, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang,
Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang
- Abstract要約: 確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
微調整されたモデルは、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的推論などの下流タスクに適応し、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 35.52349231889843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal semantic understanding often has to deal with uncertainty, which
means the obtained message tends to refer to multiple targets. Such uncertainty
is problematic for our interpretation, including intra-modal and inter-modal
uncertainty. Little effort studies the modeling of this uncertainty,
particularly in pre-training on unlabeled datasets and fine-tuning in
task-specific downstream tasks. To address this, we project the representations
of all modalities as probabilistic distributions via a Probability Distribution
Encoder (PDE) by utilizing rich multimodal semantic information. Furthermore,
we integrate uncertainty modeling with popular pre-training frameworks and
propose suitable pre-training tasks: Distribution-based Vision-Language
Contrastive learning (D-VLC), Distribution-based Masked Language Modeling
(D-MLM), and Distribution-based Image-Text Matching (D-ITM). The fine-tuned
models are applied to challenging downstream tasks, including image-text
retrieval, visual question answering, visual reasoning, and visual entailment,
and achieve state-of-the-art results. Code is released at
https://github.com/IIGROUP/MAP.
- Abstract(参考訳): マルチモーダルな意味理解は、しばしば不確実性を扱う必要があり、つまり、得られたメッセージは複数のターゲットを参照する傾向がある。
このような不確実性は、モーダル内およびモーダル間不確実性を含む我々の解釈に問題がある。
この不確実性のモデリング、特にラベルのないデータセットの事前トレーニングやタスク固有のダウンストリームタスクの微調整についてはほとんど研究されていない。
そこで本研究では,高次多様意味情報を用いて確率分布エンコーダ(pde)を介して,すべてのモダリティの表現を確率分布として投影する。
さらに、一般的な事前学習フレームワークと不確実性モデリングを統合し、分布ベース視覚言語コントラスト学習(D-VLC)、分布ベースマスケッド言語モデリング(D-MLM)、分布ベース画像テキストマッチング(D-ITM)といった適切な事前学習タスクを提案する。
微調整されたモデルは、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的推論などの下流タスクに適応し、最先端の結果を達成する。
コードはhttps://github.com/iigroup/mapでリリースされる。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture
of Stochastic Expert [24.216869988183092]
入力画像にあいまいさが存在する場合、セグメンテーションにおけるデータ独立不確実性(いわゆるアレタリック不確実性)を捉えることに重点を置いている。
本稿では,各専門家ネットワークがアレータティック不確実性の異なるモードを推定する,新しい専門家モデル(MoSE)を提案する。
We developed a Wasserstein-like loss that makes direct minimizes the distribution distance between the MoSE and ground truth annotations。
論文 参考訳(メタデータ) (2022-12-14T16:48:21Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。