論文の概要: CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets
- arxiv url: http://arxiv.org/abs/2501.03332v1
- Date: Mon, 06 Jan 2025 19:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:41.721010
- Title: CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets
- Title(参考訳): CM3T:不均質相互作用データセットのための効率的なマルチモーダル学習のためのフレームワーク
- Authors: Tanay Agrawal, Mohammed Guermal, Michal Balazia, Francois Bremond,
- Abstract要約: 本稿では,CM3Tと呼ばれるクロスラーニングのための新しいモデルに依存しないプラグインアーキテクチャを提案する。
本稿では,トランスファー学習用マルチヘッド・ビジョン・アダプタとマルチモーダル学習用クロスアテンション・アダプタの2つのアダプタ・ブロックを紹介する。
ビデオ入力を処理するバックボーンと比較してトレーニング可能なパラメータは12.8%に過ぎず、最先端よりも同等で、さらに優れた結果が得られる。
- 参考スコア(独自算出の注目度): 0.9642500063568188
- License:
- Abstract: Challenges in cross-learning involve inhomogeneous or even inadequate amount of training data and lack of resources for retraining large pretrained models. Inspired by transfer learning techniques in NLP, adapters and prefix tuning, this paper presents a new model-agnostic plugin architecture for cross-learning, called CM3T, that adapts transformer-based models to new or missing information. We introduce two adapter blocks: multi-head vision adapters for transfer learning and cross-attention adapters for multimodal learning. Training becomes substantially efficient as the backbone and other plugins do not need to be finetuned along with these additions. Comparative and ablation studies on three datasets Epic-Kitchens-100, MPIIGroupInteraction and UDIVA v0.5 show efficacy of this framework on different recording settings and tasks. With only 12.8% trainable parameters compared to the backbone to process video input and only 22.3% trainable parameters for two additional modalities, we achieve comparable and even better results than the state-of-the-art. CM3T has no specific requirements for training or pretraining and is a step towards bridging the gap between a general model and specific practical applications of video classification.
- Abstract(参考訳): クロスラーニングの課題は、不均一または不適切な量のトレーニングデータと、大きな事前訓練されたモデルを再訓練するためのリソースの欠如である。
本論文は,NLPにおけるトランスファーラーニング技術,アダプタ,プレフィックスチューニングに触発されて,トランスフォーマーベースのモデルを新しい情報や欠落情報に適用する,CM3Tと呼ばれるクロスラーニングのための新しいモデルに依存しないプラグインアーキテクチャを提案する。
本稿では,トランスファー学習用マルチヘッド・ビジョン・アダプタとマルチモーダル学習用クロスアテンション・アダプタの2つのアダプタ・ブロックを紹介する。
バックボーンや他のプラグインをこれらの追加とともに微調整する必要がなくなるため、トレーニングは大幅に効率的になる。
Epic-Kitchens-100, MPIIGroupInteraction, UDIVA v0.5の3つのデータセットの比較およびアブレーション研究は、異なる記録設定とタスクに対するこのフレームワークの有効性を示した。
ビデオ入力を処理するためにバックボーンと比較してトレーニング可能なパラメータは12.8%しかなく、2つの追加モードでトレーニング可能なパラメータは22.3%に過ぎず、最先端よりも同等でより良い結果が得られる。
CM3Tにはトレーニングや事前訓練の特別な要件はなく、一般的なモデルとビデオ分類の具体的な応用とのギャップを埋めるためのステップである。
関連論文リスト
- Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models [37.492637804756164]
3つの設定すべてで効果的に機能する多目的適応手法を導入する。
動的および静的なメモリコンポーネントからなるデュアルメモリネットワークを提案する。
私たちのアプローチは、3つのタスク設定の下で11のデータセットでテストされます。
論文 参考訳(メタデータ) (2024-03-26T10:54:07Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。