論文の概要: How Far Are We from Predicting Missing Modalities with Foundation Models?
- arxiv url: http://arxiv.org/abs/2506.03530v1
- Date: Wed, 04 Jun 2025 03:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.13073
- Title: How Far Are We from Predicting Missing Modalities with Foundation Models?
- Title(参考訳): ファンデーションモデルで失われたモダリティを予測するには、どこまでかかるのか?
- Authors: Guanzhou Ke, Yi Xie, Xiaoli Wang, Guoqing Chao, Bo Wang, Shengfeng He,
- Abstract要約: 現在の基礎モデルは、(i)利用可能なモダリティからのきめ細かい意味的抽出と(ii)生成されたモダリティの堅牢な検証の2つの重要な側面で不足することが多い。
このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。
実験の結果,画像予測の欠落に対するFIDを少なくとも14%削減し,テキスト予測の欠落に対してMERを少なくとも10%削減した。
- 参考スコア(独自算出の注目度): 31.853781353441242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal foundation models have demonstrated impressive capabilities across diverse tasks. However, their potential as plug-and-play solutions for missing modality prediction remains underexplored. To investigate this, we categorize existing approaches into three representative paradigms, encompassing a total of 42 model variants, and conduct a comprehensive evaluation in terms of prediction accuracy and adaptability to downstream tasks. Our analysis reveals that current foundation models often fall short in two critical aspects: (i) fine-grained semantic extraction from the available modalities, and (ii) robust validation of generated modalities. These limitations lead to suboptimal and, at times, misaligned predictions. To address these challenges, we propose an agentic framework tailored for missing modality prediction. This framework dynamically formulates modality-aware mining strategies based on the input context, facilitating the extraction of richer and more discriminative semantic features. In addition, we introduce a \textit{self-refinement mechanism}, which iteratively verifies and enhances the quality of generated modalities through internal feedback. Experimental results show that our method reduces FID for missing image prediction by at least 14% and MER for missing text prediction by at least 10% compared to baselines.
- Abstract(参考訳): マルチモーダル基礎モデルは、様々なタスクにまたがる印象的な機能を示している。
しかし、モダリティ予測の欠如に対するプラグ・アンド・プレイ・ソリューションとしてのポテンシャルはいまだ未定である。
そこで本研究では,既存のアプローチを,42のモデル変種を含む3つの代表的なパラダイムに分類し,予測精度と下流タスクへの適応性の観点から総合的な評価を行う。
我々の分析によると、現在の基礎モデルは2つの重要な側面でしばしば不足している。
一 利用可能なモダリティからのきめ細かい意味抽出、及び
(ii)生成されたモダリティの堅牢な検証。
これらの制限は、過度に最適であり、時には不一致の予測につながる。
これらの課題に対処するために,モーダリティ予測の欠如に適したエージェントフレームワークを提案する。
このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。
さらに、内部フィードバックによって生成したモダリティの品質を反復的に検証し、向上する「textit{self-refinement mechanism」を導入する。
実験の結果,画像予測の欠落に対するFIDを少なくとも14%削減し,テキスト予測の欠落に対してMERを少なくとも10%削減した。
関連論文リスト
- SurvUnc: A Meta-Model Based Uncertainty Quantification Framework for Survival Analysis [8.413107141283502]
生存分析は、多くの現実世界の応用、特に医療やリスクアセスメントのような高度な領域において基礎となる。
多くの生存モデルが進歩しているにもかかわらず、予測の不確実性の定量化は未熟で困難なままである。
生存モデルのためのポストホック不確実性定量化のための新しいメタモデルベースのフレームワークであるSurvUncを紹介する。
論文 参考訳(メタデータ) (2025-05-20T18:12:20Z) - Are you SURE? Enhancing Multimodal Pretraining with Missing Modalities through Uncertainty Estimation [12.459901557580052]
我々は、遅延空間再構成と不確実性推定を導入して、事前訓練されたマルチモーダルモデルの能力を拡張した新しいフレームワークSUREを提案する。
SuREは、不完全なデータが存在する場合でも、常に最先端のパフォーマンスを達成し、堅牢な予測を確実にすることを示す。
論文 参考訳(メタデータ) (2025-04-18T05:07:20Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - eXplainable Bayesian Multi-Perspective Generative Retrieval [6.823521786512908]
探索パイプラインに不確実な校正と解釈性を導入する。
LIME や SHAP などの手法を取り入れて,ブラックボックス・リランカモデルの挙動を解析する。
提案手法は3つのKILTデータセットにまたがる大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-04T09:34:13Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices [3.1466086042810884]
トランスフォーマーベースの言語モデルは、幅広いNLPタスクに新しいベンチマークを設定している。
予測の不確実性を確実に見積もるのは 重要な課題です
モデル信頼度を評価するために,複数の頭部・層にまたがるアテンションマップの幾何学的特徴を活用することで,これらの制約に対処する。
提案手法は,アクセプタビリティ判定と人工テキスト検出のためのベンチマークにおいて,既存の不確実性推定手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-22T09:17:45Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。