Fugu-MT 論文翻訳(概要): Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation

論文の概要: Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation

arxiv url: http://arxiv.org/abs/2310.03986v2
Date: Fri, 13 Oct 2023 05:35:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 16:45:34.331953
Title: Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation
Title（参考訳）: パラメータ効率適応による不規則なモーダリティをもつロバストマルチモーダル学習
Authors: Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif
Abstract要約: マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用することを目指している。データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対して、マルチモーダルシステムを堅牢にすることが望ましい。本稿では,事前学習型マルチモーダルネットワークに対する簡易かつパラメータ効率の高い適応手法を提案する。
参考スコア（独自算出の注目度）: 18.17649683468377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose simple and parameter-efficient adaptation procedures for pretrained multimodal networks. In particular, we exploit low-rank adaptation and modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 0.7% of the total parameters in most experiments). We conduct a series of experiments to highlight the robustness of our proposed method using diverse datasets for RGB-thermal and RGB-Depth semantic segmentation, multimodal material segmentation, and multimodal sentiment analysis tasks. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.
Abstract（参考訳）: マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用する。データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対してマルチモーダルシステムを堅牢にすることが望ましい。しかし,複数の既存マルチモーダルネットワークの性能は,テスト時に1つまたは複数のモーダルが欠落した場合に著しく低下する。欠落モードに対するロバスト性を実現するために,事前学習されたマルチモーダルネットワークに対する簡易かつパラメータ効率の良い適応手順を提案する。特に,中間的特徴の低位適応と変調を生かして,欠落したモダリティを補償する。このような適応によって、モダリティの欠如と、利用可能なモダリティの組み合わせのために訓練された独立した専用ネットワークを上回るパフォーマンス低下が部分的に橋渡しできることを実証する。提案された適応は極めて少数のパラメータを必要とする(例:ほとんどの実験では総パラメータの0.7%未満)。 rgb-thermalおよびrgb-depthセマンティックセグメンテーション、マルチモーダルマテリアルセグメンテーション、マルチモーダル感情分析タスクのための多様なデータセットを用いて、提案手法のロバスト性を強調した実験を行った。提案手法は,様々なタスクやデータセットにまたがる汎用性を示し,モダリティの欠如した頑健なマルチモーダル学習手法よりも優れている。

関連論文リスト

MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
Robust Multimodal Learning via Cross-Modal Proxy Tokens [11.704477276235847]
マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、大きなパフォーマンス低下を経験することが多い。我々は,すべてのモダリティが利用可能である場合に高い性能を維持しつつ,モダリティの欠如に対するロバスト性を高める,シンプルで効果的なアプローチを提案する。本手法では, 利用可能なモダリティのトークンのみにのみ参加することで, 欠落したモダリティのクラストークンを近似するクロスモーダルプロキシトークン(CMPT)を導入する。
論文参考訳（メタデータ） (2025-01-29T18:15:49Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection [10.909746391230206]
マルチモーダル学習は、下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。そこで我々は,MMP (Masked Modality Projection) を提案する。
論文参考訳（メタデータ） (2024-10-03T21:41:12Z)
Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-14T10:32:16Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文参考訳（メタデータ） (2024-07-07T13:55:56Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文参考訳（メタデータ） (2024-03-14T14:19:48Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Deep Metric Loss for Multimodal Learning [3.8979646385036175]
マルチモーダル学習のための新しいテキストマルチモーダル損失パラダイムを提案する。 textMultiModal Losは、過剰適合による非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。我々の損失は、最近のモデルの性能向上を実証的に示す。
論文参考訳（メタデータ） (2023-08-21T06:04:30Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Dynamic Enhancement Network for Partial Multi-modality Person Re-identification [52.70235136651996]
複数のモーダルの表現能力を維持しつつ、任意のモダリティを欠くことができる新しい動的拡張ネットワーク(DENet)を設計する。欠落状態は変更可能であるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に向上する。
論文参考訳（メタデータ） (2023-05-25T06:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。