Fugu-MT 論文翻訳(概要): MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model

論文の概要: MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model

arxiv url: http://arxiv.org/abs/2210.05335v3
Date: Thu, 20 Jul 2023 16:24:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 18:59:12.342170
Title: MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
Title（参考訳）: MAP:マルチモーダル不確かさを意識したビジョンランゲージ事前学習モデル
Authors: Yatai Ji, Junjie Wang, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang, Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang
Abstract要約: 確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
参考スコア（独自算出の注目度）: 35.52349231889843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal semantic understanding often has to deal with uncertainty, which means the obtained messages tend to refer to multiple targets. Such uncertainty is problematic for our interpretation, including inter- and intra-modal uncertainty. Little effort has studied the modeling of this uncertainty, particularly in pre-training on unlabeled datasets and fine-tuning in task-specific downstream datasets. In this paper, we project the representations of all modalities as probabilistic distributions via a Probability Distribution Encoder (PDE) by utilizing sequence-level interactions. Compared to the existing deterministic methods, such uncertainty modeling can convey richer multimodal semantic information and more complex relationships. Furthermore, we integrate uncertainty modeling with popular pre-training frameworks and propose suitable pre-training tasks: Distribution-based Vision-Language Contrastive learning (D-VLC), Distribution-based Masked Language Modeling (D-MLM), and Distribution-based Image-Text Matching (D-ITM). The fine-tuned models are applied to challenging downstream tasks, including image-text retrieval, visual question answering, visual reasoning, and visual entailment, and achieve state-of-the-art results.
Abstract（参考訳）: マルチモーダルな意味理解は、しばしば不確実性を扱う必要があり、つまり、得られたメッセージは複数のターゲットを参照する傾向がある。このような不確実性は、モーダル間の不確実性を含む私たちの解釈には問題があります。この不確実性のモデリング、特にラベルのないデータセットの事前トレーニングやタスク固有のダウンストリームデータセットの微調整についてはほとんど研究されていない。本稿では,確率分布エンコーダ(Probability Distribution Encoder:PDE)を用いて,全てのモードを確率分布として表現する。既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報やより複雑な関係を伝達することができる。さらに、一般的な事前学習フレームワークと不確実性モデリングを統合し、分布ベース視覚言語コントラスト学習(D-VLC)、分布ベースマスケッド言語モデリング(D-MLM)、分布ベース画像テキストマッチング(D-ITM)といった適切な事前学習タスクを提案する。微調整されたモデルは、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的推論などの下流タスクに適応し、最先端の結果を達成する。

関連論文リスト

Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.20124264650572]
MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T07:31:32Z)
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models [9.47743870776814]
視覚言語モデル(VLM)は、画像とテキストを共有潜在空間にマッピングすることで、共同表現を学習する。 GroVEはGaussian Process Latent Variable Model (GPLVM)に基づいて構築され、画像とテキストの入力を統一表現にマッピングする共有低次元潜在空間を学習する。 GroVEは、クロスモーダル検索、視覚的質問応答、アクティブラーニングなど、複数の下流タスクにわたる最先端の不確実性キャリブレーションを実現する。
論文参考訳（メタデータ） (2025-05-08T11:57:35Z)
Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition [7.25361375272096]
マルチモーダル・マルチラベル感情認識は,マルチモーダルデータにおける複数の感情の存在を同時に認識することを目的としている。既存の研究では、マルチモーダルデータに固有のノイズであるテクスブファレラティック不確実性の影響を見落としている。本稿では,不確かさ認識フレームワークを用いた潜在感情分布分解法を提案する。
論文参考訳（メタデータ） (2025-02-19T18:53:23Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-01T18:16:06Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture of Stochastic Expert [24.216869988183092]
入力画像にあいまいさが存在する場合、セグメンテーションにおけるデータ独立不確実性(いわゆるアレタリック不確実性)を捉えることに重点を置いている。本稿では,各専門家ネットワークがアレータティック不確実性の異なるモードを推定する,新しい専門家モデル(MoSE)を提案する。 We developed a Wasserstein-like loss that makes direct minimizes the distribution distance between the MoSE and ground truth annotations。
論文参考訳（メタデータ） (2022-12-14T16:48:21Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
Discriminative Multimodal Learning via Conditional Priors in Generative Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文参考訳（メタデータ） (2021-10-09T17:22:24Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文参考訳（メタデータ） (2020-07-25T05:29:34Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。