論文の概要: U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning
- arxiv url: http://arxiv.org/abs/2501.17823v1
- Date: Wed, 29 Jan 2025 18:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:57.477875
- Title: U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning
- Title(参考訳): U2A:ロバストかつ効率的なマルチモーダル学習のための統一一様適応
- Authors: Md Kaykobad Reza, Niki Nezakati, Ameya Patil, Mashhour Solh, M. Salman Asif,
- Abstract要約: 各種マルチモーダルタスクに対してローランク適応 (LoRA) を用いた単モーダルエンコーダを併用したUnified Unimodal Adaptation (U2A) を提案する。
本手法は,学習可能なパラメータの数を大幅に削減し,複雑な学習戦略の必要性を解消する。
Mask Tokens (MT) は、モダリティごとに単一のトークンを使用して、利用可能なモダリティから欠落したモダリティ特徴を生成する。
- 参考スコア(独自算出の注目度): 10.909746391230206
- License:
- Abstract: Multimodal learning often relies on designing new models and complex training strategies to achieve optimal performance. We present Unified Unimodal Adaptation (U2A), which jointly fine-tunes pretrained unimodal encoders using low-rank adaptation (LoRA) for various multimodal tasks. Our method significantly reduces the number of learnable parameters and eliminates the need for complex training strategies, such as alternating training, gradient modifications, or unimodal fine-tuning. To address missing modalities during both training and testing, we introduce Mask Tokens (MT), which generate missing modality features from available modalities using a single token per modality. This simplifies the process, removing the need for specialized feature estimation or prompt-tuning methods. Our evaluation demonstrates that U2A matches or outperforms state-of-the-art methods in both complete and missing modality settings, showcasing strong performance and robustness across various modalities, tasks, and datasets. We also analyze and report the effectiveness of Mask Tokens in different missing modality scenarios. Overall, our method provides a robust, flexible, and efficient solution for multimodal learning, with minimal computational overhead.
- Abstract(参考訳): マルチモーダル学習は、しばしば最適なパフォーマンスを達成するために、新しいモデルや複雑なトレーニング戦略を設計することに依存する。
各種マルチモーダルタスクに対してローランク適応 (LoRA) を用いた非モーダルエンコーダを微調整した統一ユニモーダル適応 (Unified Unimodal Adaptation, U2A) を提案する。
本手法は学習可能なパラメータの数を著しく減らし,訓練の交互化や勾配修正,単調微調整といった複雑なトレーニング戦略の必要性を解消する。
トレーニングとテストの両面で欠落したモダリティに対処するため,Msk Tokens (MT)を導入し,モダリティごとに単一のトークンを用いて,利用可能なモダリティから欠落したモダリティ特徴を生成する。
これによりプロセスが簡単になり、特別な機能推定やプロンプトチューニングの方法の必要性がなくなる。
評価の結果,U2Aは,様々なモーダル性,タスク,データセットにまたがる高い性能と堅牢性を示す,完全かつ欠落したモダリティ設定において,最先端の手法に適合あるいは優れることを示した。
また,異なるモダリティシナリオにおけるマスクトークンの有効性を分析し,報告する。
全体として,本手法は,計算オーバーヘッドを最小限に抑えつつ,頑健で柔軟で効率的なマルチモーダル学習ソリューションを提供する。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection [10.909746391230206]
マルチモーダル学習は、下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。
欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。
そこで我々は,MMP (Masked Modality Projection) を提案する。
論文 参考訳(メタデータ) (2024-10-03T21:41:12Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - Unified-modal Salient Object Detection via Adaptive Prompt Learning [18.90181500147265]
単一モードSODタスクと多モードSODタスクの両方に対処するため,UniSODと呼ばれる統一フレームワークを提案する。
UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモーダルアウェアプロンプトを学習する。
提案手法は,RGB,RGB-D,RGB-T SODの14のベンチマークデータセットに対して,総合的な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:51:08Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。