Fugu-MT 論文翻訳(概要): U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning

論文の概要: U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning

arxiv url: http://arxiv.org/abs/2501.17823v1
Date: Wed, 29 Jan 2025 18:15:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.688601
Title: U2A: Unified Unimodal Adaptation for Robust and Efficient Multimodal Learning
Title（参考訳）: U2A:ロバストかつ効率的なマルチモーダル学習のための統一一様適応
Authors: Md Kaykobad Reza, Niki Nezakati, Ameya Patil, Mashhour Solh, M. Salman Asif,
Abstract要約: 各種マルチモーダルタスクに対してローランク適応 (LoRA) を用いた単モーダルエンコーダを併用したUnified Unimodal Adaptation (U2A) を提案する。本手法は,学習可能なパラメータの数を大幅に削減し,複雑な学習戦略の必要性を解消する。 Mask Tokens (MT) は、モダリティごとに単一のトークンを使用して、利用可能なモダリティから欠落したモダリティ特徴を生成する。
参考スコア（独自算出の注目度）: 10.909746391230206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning often relies on designing new models and complex training strategies to achieve optimal performance. We present Unified Unimodal Adaptation (U2A), which jointly fine-tunes pretrained unimodal encoders using low-rank adaptation (LoRA) for various multimodal tasks. Our method significantly reduces the number of learnable parameters and eliminates the need for complex training strategies, such as alternating training, gradient modifications, or unimodal fine-tuning. To address missing modalities during both training and testing, we introduce Mask Tokens (MT), which generate missing modality features from available modalities using a single token per modality. This simplifies the process, removing the need for specialized feature estimation or prompt-tuning methods. Our evaluation demonstrates that U2A matches or outperforms state-of-the-art methods in both complete and missing modality settings, showcasing strong performance and robustness across various modalities, tasks, and datasets. We also analyze and report the effectiveness of Mask Tokens in different missing modality scenarios. Overall, our method provides a robust, flexible, and efficient solution for multimodal learning, with minimal computational overhead.
Abstract（参考訳）: マルチモーダル学習は、しばしば最適なパフォーマンスを達成するために、新しいモデルや複雑なトレーニング戦略を設計することに依存する。各種マルチモーダルタスクに対してローランク適応 (LoRA) を用いた非モーダルエンコーダを微調整した統一ユニモーダル適応 (Unified Unimodal Adaptation, U2A) を提案する。本手法は学習可能なパラメータの数を著しく減らし,訓練の交互化や勾配修正,単調微調整といった複雑なトレーニング戦略の必要性を解消する。トレーニングとテストの両面で欠落したモダリティに対処するため,Msk Tokens (MT)を導入し,モダリティごとに単一のトークンを用いて,利用可能なモダリティから欠落したモダリティ特徴を生成する。これによりプロセスが簡単になり、特別な機能推定やプロンプトチューニングの方法の必要性がなくなる。評価の結果,U2Aは,様々なモーダル性,タスク,データセットにまたがる高い性能と堅牢性を示す,完全かつ欠落したモダリティ設定において,最先端の手法に適合あるいは優れることを示した。また,異なるモダリティシナリオにおけるマスクトークンの有効性を分析し,報告する。全体として,本手法は,計算オーバーヘッドを最小限に抑えつつ,頑健で柔軟で効率的なマルチモーダル学習ソリューションを提供する。

関連論文リスト

Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文参考訳（メタデータ） (2025-06-13T08:01:29Z)
Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection [10.909746391230206]
マルチモーダル学習は、下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。そこで我々は,MMP (Masked Modality Projection) を提案する。
論文参考訳（メタデータ） (2024-10-03T21:41:12Z)
Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-14T10:32:16Z)
Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文参考訳（メタデータ） (2024-07-10T10:13:11Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
Multimodal Federated Learning with Missing Modality via Prototype Mask and Contrast [23.936677199734213]
本稿では,FedAvgベースのFederated Learningフレームワークにプロトタイプライブラリを導入する。提案手法は,タスク校正されたトレーニング損失とモデルに依存しない一様性推論戦略を定式化するために,欠落したモダリティを表すマスクとしてプロトタイプを利用する。ベースラインと比較して,トレーニング中に50%のモダリティが欠落し,一様性推論時に23.8%の精度で推論精度が3.7%向上した。
論文参考訳（メタデータ） (2023-12-21T00:55:12Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文参考訳（メタデータ） (2023-04-21T05:52:50Z)
Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文参考訳（メタデータ） (2023-04-13T07:31:51Z)
Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。トレーニング中にモデルを効果的に正規化する方法を研究する。第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文参考訳（メタデータ） (2022-11-25T06:10:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。