Fugu-MT 論文翻訳(概要): Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities

論文の概要: Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities

arxiv url: http://arxiv.org/abs/2407.16243v1
Date: Tue, 23 Jul 2024 07:29:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 18:16:07.948708
Title: Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities
Title（参考訳）: Chameleon:画像は、モダリティの欠如に対するマルチモーダル学習のロバストに必要なもの
Authors: Muhammad Irzam Liaqat, Shah Nawaz, Muhammad Zaigham Zaheer, Muhammad Saad Saeed, Hassan Sajjad, Tom De Schepper, Karthik Nandakumar, Muhammad Haris Khan Markus Schedl,
Abstract要約: マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
参考スコア（独自算出の注目度）: 17.723207830420996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal learning has demonstrated remarkable performance improvements over unimodal architectures. However, multimodal learning methods often exhibit deteriorated performances if one or more modalities are missing. This may be attributed to the commonly used multi-branch design containing modality-specific streams making the models reliant on the availability of a complete set of modalities. In this work, we propose a robust textual-visual multimodal learning method, Chameleon, that completely deviates from the conventional multi-branch design. To enable this, we present the unification of input modalities into one format by encoding textual modality into visual representations. As a result, our approach does not require modality-specific branches to learn modality-independent multimodal representations making it robust to missing modalities. Extensive experiments are performed on four popular challenging datasets including Hateful Memes, UPMC Food-101, MM-IMDb, and Ferramenta. Chameleon not only achieves superior performance when all modalities are present at train/test time but also demonstrates notable resilience in the case of missing modalities.
Abstract（参考訳）: マルチモーダル学習は単調なアーキテクチャよりも顕著な性能向上を示している。しかし、1つ以上のモダリティが欠如している場合、マルチモーダル学習法は劣化した性能を示すことが多い。これは、モダリティ固有のストリームを含む一般的なマルチブランチ設計によるもので、モデルが完全なモダリティセットの可用性に依存しているためである。本研究では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト・視覚多モーダル学習手法であるChameleonを提案する。これを実現するために,テキストモダリティを視覚表現に符号化することで,入力モダリティを一つの形式に統一する。その結果、モダリティに依存しないマルチモーダル表現を学習するために、モダリティ固有の分岐を必要としないため、モダリティの欠如に頑健である。大規模な実験は、Hateful Memes、UPMC Food-101、MM-IMDb、Felamentaの4つの一般的な挑戦的データセットで実施されている。 Chameleonは、すべてのモダリティが列車/テスト時に存在する場合に優れたパフォーマンスを達成するだけでなく、モダリティが欠如している場合に顕著なレジリエンスを示す。

関連論文リスト

MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment [25.542507946327333]
本研究では,一段階学習における一助学習と共同表現学習を統一するMCMoE(Missing Completion Framework with Mixture of Experts)を提案する。次に、モダリティの専門家を設計し、モダリティの知識を学習し、すべての専門家の知識を動的に混合し、モダリティ間の共同表現を抽出する。我々のMCMoEは,3つの公開ベンチマークにおいて,完全かつ不完全なマルチモーダル学習を実現する。
論文参考訳（メタデータ） (2025-11-21T16:56:25Z)
True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
MMOne: Representing Multiple Modalities in One Scene [2.617962830559083]
一つのシーンで複数のモーダルを表現するための一般的なフレームワークMMOneを提案する。具体的には、各モダリティのユニークな特性を捉えるために、新しいモダリティ指標を持つモダリティモデリングモジュールを提案する。また、モダリティ差に基づき、マルチモーダルガウスを単一モーダルガウスに分離する多モーダル分解機構を設計する。
論文参考訳（メタデータ） (2025-07-15T09:29:29Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-14T10:32:16Z)
Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。 4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文参考訳（メタデータ） (2024-07-16T03:34:38Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
What Makes for Robust Multi-Modal Models in the Face of Missing Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。 UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。 UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文参考訳（メタデータ） (2023-10-10T07:47:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-02T07:15:10Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。