論文の概要: A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter
- arxiv url: http://arxiv.org/abs/2412.08979v1
- Date: Thu, 12 Dec 2024 06:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:35.750071
- Title: A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter
- Title(参考訳): マルチモーダルランドスケープのワンダー:低ランクシーケンス型マルチモーダルアダプタによる効率的なトランスファー学習
- Authors: Zirun Guo, Xize Cheng, Yangyang Wu, Tao Jin,
- Abstract要約: 本稿では,loW-rank sequence multimodal adapter (Wander)を提案する。
まず、外積を用いて異なるモダリティから情報を効果的に融合する。
効率を上げるために、CP分解を用いてテンソルをランク1成分に分解し、実質的なパラメータ還元を実現する。
Wander氏は、最先端の効率的なトランスファー学習法を一貫して上回り、様々なモダリティを持つデータセットに対して広範な実験を行った。
- 参考スコア(独自算出の注目度): 8.481711069173262
- License:
- Abstract: Efficient transfer learning methods such as adapter-based methods have shown great success in unimodal models and vision-language models. However, existing methods have two main challenges in fine-tuning multimodal models. Firstly, they are designed for vision-language tasks and fail to extend to situations where there are more than two modalities. Secondly, they exhibit limited exploitation of interactions between modalities and lack efficiency. To address these issues, in this paper, we propose the loW-rank sequence multimodal adapter (Wander). We first use the outer product to fuse the information from different modalities in an element-wise way effectively. For efficiency, we use CP decomposition to factorize tensors into rank-one components and achieve substantial parameter reduction. Furthermore, we implement a token-level low-rank decomposition to extract more fine-grained features and sequence relationships between modalities. With these designs, Wander enables token-level interactions between sequences of different modalities in a parameter-efficient way. We conduct extensive experiments on datasets with different numbers of modalities, where Wander outperforms state-of-the-art efficient transfer learning methods consistently. The results fully demonstrate the effectiveness, efficiency and universality of Wander.
- Abstract(参考訳): アダプタベースの手法のような効率的な伝達学習手法は、単調なモデルや視覚言語モデルにおいて大きな成功を収めている。
しかし、既存の手法は微調整型マルチモーダルモデルにおいて2つの大きな課題がある。
第一に、視覚言語タスク用に設計されており、2つ以上のモダリティが存在する状況にまで拡張できない。
第二に、モダリティ間の相互作用の限定的な利用と効率の欠如を示す。
本稿では,これらの問題に対処するため,loW-rank sequence multimodal adapter (Wander)を提案する。
まず、外積を用いて異なるモダリティから情報を効果的に融合する。
効率を上げるために、CP分解を用いてテンソルをランク1成分に分解し、実質的なパラメータ還元を実現する。
さらに、トークンレベルの低ランク分解を実装し、よりきめ細かい特徴やモーダル間のシーケンス関係を抽出する。
これらの設計により、ウェンダーはパラメータ効率のよい方法で異なるモジュラリティの列間のトークンレベルの相互作用を可能にする。
Wander氏は、最先端の効率的な転送学習手法を一貫して上回る、さまざまなモーダル性を持つデータセットに関する広範な実験を行った。
結果は、ワンダーの有効性、効率、普遍性を完全に証明している。
関連論文リスト
- M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。
このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。
提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T03:04:21Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。