論文の概要: How Far Are We from Predicting Missing Modalities with Foundation Models?
- arxiv url: http://arxiv.org/abs/2506.03530v1
- Date: Wed, 04 Jun 2025 03:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.13073
- Title: How Far Are We from Predicting Missing Modalities with Foundation Models?
- Title(参考訳): ファンデーションモデルで失われたモダリティを予測するには、どこまでかかるのか?
- Authors: Guanzhou Ke, Yi Xie, Xiaoli Wang, Guoqing Chao, Bo Wang, Shengfeng He,
- Abstract要約: 現在の基礎モデルは、(i)利用可能なモダリティからのきめ細かい意味的抽出と(ii)生成されたモダリティの堅牢な検証の2つの重要な側面で不足することが多い。
このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。
実験の結果,画像予測の欠落に対するFIDを少なくとも14%削減し,テキスト予測の欠落に対してMERを少なくとも10%削減した。
- 参考スコア(独自算出の注目度): 31.853781353441242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal foundation models have demonstrated impressive capabilities across diverse tasks. However, their potential as plug-and-play solutions for missing modality prediction remains underexplored. To investigate this, we categorize existing approaches into three representative paradigms, encompassing a total of 42 model variants, and conduct a comprehensive evaluation in terms of prediction accuracy and adaptability to downstream tasks. Our analysis reveals that current foundation models often fall short in two critical aspects: (i) fine-grained semantic extraction from the available modalities, and (ii) robust validation of generated modalities. These limitations lead to suboptimal and, at times, misaligned predictions. To address these challenges, we propose an agentic framework tailored for missing modality prediction. This framework dynamically formulates modality-aware mining strategies based on the input context, facilitating the extraction of richer and more discriminative semantic features. In addition, we introduce a \textit{self-refinement mechanism}, which iteratively verifies and enhances the quality of generated modalities through internal feedback. Experimental results show that our method reduces FID for missing image prediction by at least 14% and MER for missing text prediction by at least 10% compared to baselines.
- Abstract(参考訳): マルチモーダル基礎モデルは、様々なタスクにまたがる印象的な機能を示している。
しかし、モダリティ予測の欠如に対するプラグ・アンド・プレイ・ソリューションとしてのポテンシャルはいまだ未定である。
そこで本研究では,既存のアプローチを,42のモデル変種を含む3つの代表的なパラダイムに分類し,予測精度と下流タスクへの適応性の観点から総合的な評価を行う。
我々の分析によると、現在の基礎モデルは2つの重要な側面でしばしば不足している。
一 利用可能なモダリティからのきめ細かい意味抽出、及び
(ii)生成されたモダリティの堅牢な検証。
これらの制限は、過度に最適であり、時には不一致の予測につながる。
これらの課題に対処するために,モーダリティ予測の欠如に適したエージェントフレームワークを提案する。
このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。
さらに、内部フィードバックによって生成したモダリティの品質を反復的に検証し、向上する「textit{self-refinement mechanism」を導入する。
実験の結果,画像予測の欠落に対するFIDを少なくとも14%削減し,テキスト予測の欠落に対してMERを少なくとも10%削減した。
関連論文リスト
- OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - Enhancing Foundation VLM Robustness to Missing Modality: Scalable Diffusion for Bi-directional Feature Restoration [40.720288165545476]
本研究では,機能不足を効果的に回復するために,拡張拡散モデルをプラグ可能な中段階トレーニングモジュールとして導入する。
I)動的モダリティゲーティング(動的モダリティゲーティング)は、条件付き特徴を適応的に活用し、セマンティック一貫性のある特徴の生成を制御し、(II)双方向アライメントを実現するためにデュアルエンコーダのセマンティック空間をブリッジするクロスモーダル相互学習機構である。
論文 参考訳(メタデータ) (2026-02-03T06:06:35Z) - SurvUnc: A Meta-Model Based Uncertainty Quantification Framework for Survival Analysis [8.413107141283502]
生存分析は、多くの現実世界の応用、特に医療やリスクアセスメントのような高度な領域において基礎となる。
多くの生存モデルが進歩しているにもかかわらず、予測の不確実性の定量化は未熟で困難なままである。
生存モデルのためのポストホック不確実性定量化のための新しいメタモデルベースのフレームワークであるSurvUncを紹介する。
論文 参考訳(メタデータ) (2025-05-20T18:12:20Z) - Are you SURE? Enhancing Multimodal Pretraining with Missing Modalities through Uncertainty Estimation [12.459901557580052]
我々は、遅延空間再構成と不確実性推定を導入して、事前訓練されたマルチモーダルモデルの能力を拡張した新しいフレームワークSUREを提案する。
SuREは、不完全なデータが存在する場合でも、常に最先端のパフォーマンスを達成し、堅牢な予測を確実にすることを示す。
論文 参考訳(メタデータ) (2025-04-18T05:07:20Z) - Predictive Multiplicity in Survival Models: A Method for Quantifying Model Uncertainty in Predictive Maintenance Applications [0.0]
我々は、生存に基づくモデルにおいて、予測的乗法が重要な関心事であると考えている。
あいまいさ、不明瞭さ、不明瞭さという形式的な尺度を導入し、それを定量化します。
これは特にメンテナンススケジューリングなどの下流タスクに関係している。
論文 参考訳(メタデータ) (2025-04-16T15:04:00Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - eXplainable Bayesian Multi-Perspective Generative Retrieval [6.823521786512908]
探索パイプラインに不確実な校正と解釈性を導入する。
LIME や SHAP などの手法を取り入れて,ブラックボックス・リランカモデルの挙動を解析する。
提案手法は3つのKILTデータセットにまたがる大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-04T09:34:13Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices [3.1466086042810884]
トランスフォーマーベースの言語モデルは、幅広いNLPタスクに新しいベンチマークを設定している。
予測の不確実性を確実に見積もるのは 重要な課題です
モデル信頼度を評価するために,複数の頭部・層にまたがるアテンションマップの幾何学的特徴を活用することで,これらの制約に対処する。
提案手法は,アクセプタビリティ判定と人工テキスト検出のためのベンチマークにおいて,既存の不確実性推定手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-22T09:17:45Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - HandFlow: Quantifying View-Dependent 3D Ambiguity in Two-Hand
Reconstruction with Normalizing Flow [73.7895717883622]
条件付き正規化フローフレームワークにおける可塑性再構成の分布を明示的にモデル化する。
この課題に対して,明示的な曖昧さモデリングが適していることを示す。
論文 参考訳(メタデータ) (2022-10-04T15:42:22Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Towards Trustworthy Predictions from Deep Neural Networks with Fast
Adversarial Calibration [2.8935588665357077]
本稿では,ドメインシフト後に得られたサンプルに対して,信頼度の高い信頼度を得るための効率的かつ汎用的なモデリング手法を提案する。
本稿では,エントロピー増大損失項と逆キャリブレーション損失項を組み合わせた新しいトレーニング戦略を導入し,この結果が適切に調整され,技術的に信頼できる予測となることを示す。
論文 参考訳(メタデータ) (2020-12-20T13:39:29Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Quantifying Model Uncertainty in Inverse Problems via Bayesian Deep
Gradient Descent [4.029853654012035]
逆問題における最近の進歩は、例えばディープニューラルネットワークのような強力なデータ駆動モデルを活用する。
ベイズニューラルネットワークによるモデル不確実性を定量化するための,スケーラブルでデータ駆動型,知識支援型計算フレームワークを開発した。
論文 参考訳(メタデータ) (2020-07-20T09:43:31Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。