論文の概要: Robust Multimodal Learning via Cross-Modal Proxy Tokens
- arxiv url: http://arxiv.org/abs/2501.17823v2
- Date: Mon, 10 Mar 2025 01:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:19.925111
- Title: Robust Multimodal Learning via Cross-Modal Proxy Tokens
- Title(参考訳): クロスモーダルプロキシトークンによるロバストなマルチモーダル学習
- Authors: Md Kaykobad Reza, Ameya Patil, Mashhour Solh, M. Salman Asif,
- Abstract要約: マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、大きなパフォーマンス低下を経験することが多い。
我々は,すべてのモダリティが利用可能である場合に高い性能を維持しつつ,モダリティの欠如に対するロバスト性を高める,シンプルで効果的なアプローチを提案する。
本手法では, 利用可能なモダリティのトークンのみにのみ参加することで, 欠落したモダリティのクラストークンを近似するクロスモーダルプロキシトークン(CMPT)を導入する。
- 参考スコア(独自算出の注目度): 11.704477276235847
- License:
- Abstract: Multimodal models often experience a significant performance drop when one or more modalities are missing during inference. To address this challenge, we propose a simple yet effective approach that enhances robustness to missing modalities while maintaining strong performance when all modalities are available. Our method introduces cross-modal proxy tokens (CMPTs), which approximate the class token of a missing modality by attending only to the tokens of the available modality. To efficiently learn the approximation for the missing modality via CMPTs with minimal computational overhead, we employ low-rank adapters in frozen unimodal encoders and jointly optimize an alignment loss with a task-specific loss. Extensive experiments on five multimodal datasets show that our method outperforms state-of-the-art baselines across various missing rates while achieving competitive results in complete-modality settings. Overall, our method offers a flexible and efficient solution for robust multimodal learning. The code and pretrained models will be released on GitHub.
- Abstract(参考訳): マルチモーダルモデルは、推論中に1つ以上のモダリティが欠落している場合、大きなパフォーマンス低下を経験することが多い。
この課題に対処するために,すべてのモダリティが利用可能である場合に高い性能を維持しつつ,モダリティの欠如に対する堅牢性を高める,シンプルで効果的なアプローチを提案する。
本手法では, 利用可能なモダリティのトークンのみにのみ参加することで, 欠落したモダリティのクラストークンを近似するクロスモーダルプロキシトークン(CMPT)を導入する。
計算オーバーヘッドを最小限に抑えたCMPTを用いて、欠落したモダリティの近似を効率的に学習するために、フリーズユニモーダルエンコーダの低ランクアダプタを使用し、タスク固有の損失を伴うアライメント損失を協調的に最適化する。
5つのマルチモーダルデータセットに対する大規模な実験により,本手法は様々な欠落率で最先端のベースラインを上回り,完全なモダリティ設定において競合的な結果が得られることを示した。
全体として、我々の手法は堅牢なマルチモーダル学習のための柔軟で効率的なソリューションを提供する。
コードと事前訓練されたモデルはGitHubでリリースされる。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection [10.909746391230206]
マルチモーダル学習は、下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。
欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。
そこで我々は,MMP (Masked Modality Projection) を提案する。
論文 参考訳(メタデータ) (2024-10-03T21:41:12Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - Unified-modal Salient Object Detection via Adaptive Prompt Learning [18.90181500147265]
単一モードSODタスクと多モードSODタスクの両方に対処するため,UniSODと呼ばれる統一フレームワークを提案する。
UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモーダルアウェアプロンプトを学習する。
提案手法は,RGB,RGB-D,RGB-T SODの14のベンチマークデータセットに対して,総合的な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:51:08Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。