論文の概要: Deep Multimodal Learning with Missing Modality: A Survey
- arxiv url: http://arxiv.org/abs/2409.07825v3
- Date: Mon, 21 Oct 2024 09:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:13.291965
- Title: Deep Multimodal Learning with Missing Modality: A Survey
- Title(参考訳): モダリティを欠くディープマルチモーダル学習:サーベイ
- Authors: Renjie Wu, Hu Wang, Hsiang-Ting Chen, Gustavo Carneiro,
- Abstract要約: 欠落したモダリティを扱うために設計されたマルチモーダル学習技術は、これを緩和することができる。
本調査は,Multimodal Learning with Missing Modality (MLMM)の最近の進歩を概観する。
- 参考スコア(独自算出の注目度): 12.873458712005037
- License:
- Abstract: During multimodal model training and testing, certain data modalities may be absent due to sensor limitations, cost constraints, privacy concerns, or data loss, negatively affecting performance. Multimodal learning techniques designed to handle missing modalities can mitigate this by ensuring model robustness even when some modalities are unavailable. This survey reviews recent progress in Multimodal Learning with Missing Modality (MLMM), focusing on deep learning methods. It provides the first comprehensive survey that covers the motivation and distinctions between MLMM and standard multimodal learning setups, followed by a detailed analysis of current methods, applications, and datasets, concluding with challenges and future directions.
- Abstract(参考訳): マルチモーダルモデルトレーニングとテストの間、センサーの制限、コスト制限、プライバシの懸念、データ損失により、特定のデータモダリティが欠落し、パフォーマンスに悪影響を及ぼす可能性がある。
モダリティの欠如に対処するために設計されたマルチモーダル学習技術は、いくつかのモダリティが利用できない場合でも、モデルロバスト性を確保することでこれを緩和することができる。
本調査は, 深層学習に着目したMLMM(Multimodal Learning with Missing Modality)の最近の進歩を概観する。
MLMMと標準マルチモーダル学習セットアップのモチベーションと区別をカバーした最初の総合的な調査を行い、続いて現在の方法、アプリケーション、データセットの詳細な分析を行い、課題と今後の方向性を結論付けている。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model [3.012719451477384]
MID-Mは,汎用言語モデル(LLM)のコンテキスト内学習機能を利用して,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークである。
MID-Mは、タスク固有の微調整 LMM や他の汎用ドメインと同等または優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータによる事前トレーニングは行わない。
データ品質問題に対するMID-Mの堅牢性は、実世界の医療ドメインアプリケーションにおいて実用性を示している。
論文 参考訳(メタデータ) (2024-04-29T13:23:33Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Combining State-of-the-Art Models with Maximal Marginal Relevance for
Few-Shot and Zero-Shot Multi-Document Summarization [0.6690874707758508]
多文書要約(MDS)は、単一文書要約(SDS)によって生じるものよりも多くの課題を研究者にもたらす
我々は,MMR(Maximal marginal Relevance)を用いた最先端モデルの出力の組み合わせ戦略を提案する。
我々のMMRベースのアプローチは、少数ショットMDSアプリケーションとゼロショットMDSアプリケーションの両方において、現在の最先端の成果のいくつかの側面よりも改善されている。
論文 参考訳(メタデータ) (2022-11-19T21:46:31Z) - DeepPAMM: Deep Piecewise Exponential Additive Mixed Models for Complex
Hazard Structures in Survival Analysis [0.7349727826230864]
サバイバル分析(英: Survival analysis、SA)は、時間と時間に関する研究の活発な分野である。
その重要性にもかかわらず、SAは小規模なデータセットと複雑な結果分布のために依然として困難である。
本稿では,複雑な危険構造をモデル化する上で十分な柔軟性を持ちながら,統計的観点から十分に構築された汎用的なディープラーニングフレームワークであるDeepPAMMを提案する。
論文 参考訳(メタデータ) (2022-02-12T11:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。