論文の概要: How Far Are We from Generating Missing Modalities with Foundation Models?
- arxiv url: http://arxiv.org/abs/2506.03530v2
- Date: Mon, 11 Aug 2025 06:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:53.057481
- Title: How Far Are We from Generating Missing Modalities with Foundation Models?
- Title(参考訳): ファウンデーションモデルによる失われたモダリティの生成から、どこまで遠いのか?
- Authors: Guanzhou Ke, Bo Wang, Guoqing Chao, Weiming Hu, Shengfeng He,
- Abstract要約: 欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
- 参考スコア(独自算出の注目度): 49.425856207329524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal foundation models have demonstrated impressive capabilities across diverse tasks. However, their potential as plug-and-play solutions for missing modality reconstruction remains underexplored. To bridge this gap, we identify and formalize three potential paradigms for missing modality reconstruction, and perform a comprehensive evaluation across these paradigms, covering 42 model variants in terms of reconstruction accuracy and adaptability to downstream tasks. Our analysis reveals that current foundation models often fall short in two critical aspects: (i) fine-grained semantic extraction from the available modalities, and (ii) robust validation of generated modalities. These limitations lead to suboptimal and, at times, misaligned generations. To address these challenges, we propose an agentic framework tailored for missing modality reconstruction. This framework dynamically formulates modality-aware mining strategies based on the input context, facilitating the extraction of richer and more discriminative semantic features. In addition, we introduce a self-refinement mechanism, which iteratively verifies and enhances the quality of generated modalities through internal feedback. Experimental results show that our method reduces FID for missing image reconstruction by at least 14\% and MER for missing text reconstruction by at least 10\% compared to baselines. Code are released at: https://github.com/Guanzhou-Ke/AFM2.
- Abstract(参考訳): マルチモーダル基礎モデルは、様々なタスクにまたがる印象的な機能を示している。
しかし、モダリティ再構築の欠如に対するプラグ・アンド・プレイ・ソリューションとしてのポテンシャルはいまだ未定である。
このギャップを埋めるために、モダリティの再構築に欠かせない3つのパラダイムを特定し、これらのパラダイムを包括的に評価し、ダウンストリームタスクに対する再構成精度と適応性の観点から42のモデル変種をカバーする。
我々の分析によると、現在の基礎モデルは2つの重要な側面でしばしば不足している。
一 利用可能なモダリティからのきめ細かい意味抽出、及び
(ii)生成されたモダリティの堅牢な検証。
これらの制限は、極端に最適であり、時には、不整合世代につながる。
これらの課題に対処するために,モダリティ再構築の欠如に適したエージェントフレームワークを提案する。
このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。
さらに、内部フィードバックによって生成したモダリティの品質を反復的に検証し、向上する自己抑制機構を導入する。
実験結果から,画像再構成に要するFIDを少なくとも14%削減し,テキスト再構成に要するMERを少なくとも10倍削減できることがわかった。
コードはhttps://github.com/Guanzhou-Ke/AFM2.comで公開されている。
関連論文リスト
- SurvUnc: A Meta-Model Based Uncertainty Quantification Framework for Survival Analysis [8.413107141283502]
生存分析は、多くの現実世界の応用、特に医療やリスクアセスメントのような高度な領域において基礎となる。
多くの生存モデルが進歩しているにもかかわらず、予測の不確実性の定量化は未熟で困難なままである。
生存モデルのためのポストホック不確実性定量化のための新しいメタモデルベースのフレームワークであるSurvUncを紹介する。
論文 参考訳(メタデータ) (2025-05-20T18:12:20Z) - Are you SURE? Enhancing Multimodal Pretraining with Missing Modalities through Uncertainty Estimation [12.459901557580052]
我々は、遅延空間再構成と不確実性推定を導入して、事前訓練されたマルチモーダルモデルの能力を拡張した新しいフレームワークSUREを提案する。
SuREは、不完全なデータが存在する場合でも、常に最先端のパフォーマンスを達成し、堅牢な予測を確実にすることを示す。
論文 参考訳(メタデータ) (2025-04-18T05:07:20Z) - Predictive Multiplicity in Survival Models: A Method for Quantifying Model Uncertainty in Predictive Maintenance Applications [0.0]
我々は、生存に基づくモデルにおいて、予測的乗法が重要な関心事であると考えている。
あいまいさ、不明瞭さ、不明瞭さという形式的な尺度を導入し、それを定量化します。
これは特にメンテナンススケジューリングなどの下流タスクに関係している。
論文 参考訳(メタデータ) (2025-04-16T15:04:00Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - eXplainable Bayesian Multi-Perspective Generative Retrieval [6.823521786512908]
探索パイプラインに不確実な校正と解釈性を導入する。
LIME や SHAP などの手法を取り入れて,ブラックボックス・リランカモデルの挙動を解析する。
提案手法は3つのKILTデータセットにまたがる大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-04T09:34:13Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices [3.1466086042810884]
トランスフォーマーベースの言語モデルは、幅広いNLPタスクに新しいベンチマークを設定している。
予測の不確実性を確実に見積もるのは 重要な課題です
モデル信頼度を評価するために,複数の頭部・層にまたがるアテンションマップの幾何学的特徴を活用することで,これらの制約に対処する。
提案手法は,アクセプタビリティ判定と人工テキスト検出のためのベンチマークにおいて,既存の不確実性推定手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-22T09:17:45Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Towards Trustworthy Predictions from Deep Neural Networks with Fast
Adversarial Calibration [2.8935588665357077]
本稿では,ドメインシフト後に得られたサンプルに対して,信頼度の高い信頼度を得るための効率的かつ汎用的なモデリング手法を提案する。
本稿では,エントロピー増大損失項と逆キャリブレーション損失項を組み合わせた新しいトレーニング戦略を導入し,この結果が適切に調整され,技術的に信頼できる予測となることを示す。
論文 参考訳(メタデータ) (2020-12-20T13:39:29Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。