論文の概要: Robult: Leveraging Redundancy and Modality Specific Features for Robust Multimodal Learning
- arxiv url: http://arxiv.org/abs/2509.03477v1
- Date: Wed, 03 Sep 2025 16:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.602887
- Title: Robult: Leveraging Redundancy and Modality Specific Features for Robust Multimodal Learning
- Title(参考訳): ロバストなマルチモーダル学習のための冗長性とモダリティ特長の活用
- Authors: Duy A. Nguyen, Abhi Kamboj, Minh N. Do,
- Abstract要約: Robultは、モダリティ固有の情報を保存することで課題を軽減するために設計されたスケーラブルなフレームワークである。
半教師付き学習と欠落したモダリティの両文脈において,Robultは既存手法よりも優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 6.788049398765988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing missing modalities and limited labeled data is crucial for advancing robust multimodal learning. We propose Robult, a scalable framework designed to mitigate these challenges by preserving modality-specific information and leveraging redundancy through a novel information-theoretic approach. Robult optimizes two core objectives: (1) a soft Positive-Unlabeled (PU) contrastive loss that maximizes task-relevant feature alignment while effectively utilizing limited labeled data in semi-supervised settings, and (2) a latent reconstruction loss that ensures unique modality-specific information is retained. These strategies, embedded within a modular design, enhance performance across various downstream tasks and ensure resilience to incomplete modalities during inference. Experimental results across diverse datasets validate that Robult achieves superior performance over existing approaches in both semi-supervised learning and missing modality contexts. Furthermore, its lightweight design promotes scalability and seamless integration with existing architectures, making it suitable for real-world multimodal applications.
- Abstract(参考訳): モダリティの欠如とラベル付きデータの制限に対処することは、堅牢なマルチモーダル学習を進める上で不可欠である。
本稿では,モダリティに固有の情報を保存し,新しい情報理論アプローチによる冗長性を活用することにより,これらの課題を緩和するスケーラブルなフレームワークRobultを提案する。
ロバルトは,(1)タスク関連特徴アライメントを最大化するソフト・ポジティブ・アンラベル(PU)コントラッシブ・ロス,(2)独特なモダリティ特化情報を維持する潜時再構成・ロスの2つの目的を最適化した。
これらの戦略はモジュラー設計に組み込まれ、様々な下流タスクのパフォーマンスを高め、推論中に不完全なモダリティに対するレジリエンスを確保する。
多様なデータセットにまたがる実験結果は、半教師付き学習と欠落したモダリティコンテキストの両方において、Robultが既存のアプローチよりも優れたパフォーマンスを達成することを証明している。
さらに、その軽量な設計は、スケーラビリティと既存のアーキテクチャとのシームレスな統合を促進し、現実世界のマルチモーダルアプリケーションに適している。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - FDRMFL:Multi-modal Federated Feature Extraction Model Based on Information Maximization and Contrastive Learning [4.453671369861554]
本研究では,マルチモーダルデータ回帰における特徴抽出問題に焦点をあてる。
実世界のシナリオでは、制限と非IIDデータ、マルチモーダル情報の効果的な抽出と融合、モデル学習における破滅的な忘れ込みへの感受性の3つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-30T17:13:35Z) - Rethinking Efficient Mixture-of-Experts for Remote Sensing Modality-Missing Classification [33.302856478333524]
リモートセンシングにおけるマルチモーダル分類は、環境干渉、センサーの故障、大気の影響によって生じるモダリティの欠如に悩まされることが多い。
既存の2段階適応法は計算コストが高く、訓練中に完全なマルチモーダルデータを仮定し、その一般化を実世界の不完全性に制限する。
マルチタスク学習問題として欠落したモダリティを再構成するMissing-Aware Mixture-of-Lorasフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-14T16:31:37Z) - PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities [16.291126782001935]
本稿では,不備なモダリティ下でのロバストなクロスモーダル表現のためのPROMISEという新しいフレームワークを提案する。
ProMISEはマルチモーダル・プロンプト・ラーニングを階層的なコントラスト・ラーニング・フレームワークに組み込んでおり、特別に設計されたプロンプト・アテンション・メカニズムを備えている。
ベンチマークデータセットを用いて行った実験は、包括的なアブレーション研究とともに、現在の最先端マルチモーダル手法と比較して、ProMISEの優れた性能を明らかに示している。
論文 参考訳(メタデータ) (2025-11-14T06:39:24Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [56.55935146424585]
textbfIncomplete textbfModality textbfRecommendation の textbfInformation ボトルネック原理を用いて学習する textbfI$3$-MRec を紹介する。
それぞれのモダリティを異なる意味環境として扱うことで、I$3$-MRecは、優先指向の表現を学習するために不変リスク最小化(IRM)を採用する。
I$3$-MRecは、様々なモダリティ欠落シナリオにおいて、既存の最先端MSSメソッドを一貫して上回る
論文 参考訳(メタデータ) (2025-08-06T09:29:50Z) - MIRRAMS: Learning Robust Tabular Models under Unseen Missingness Shifts [2.5357049657770516]
欠落した値はしばしばデータ収集ポリシーのバリエーションを反映し、時間や場所によって変化することがある。
このようなトレーニングとテストインプットの間の不足分布の変化は、堅牢な予測性能を達成する上で大きな課題となる。
この課題に対処するために設計された,新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T03:03:30Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。