論文の概要: Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks
- arxiv url: http://arxiv.org/abs/2311.05152v2
- Date: Wed, 20 Dec 2023 23:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:58:52.799611
- Title: Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks
- Title(参考訳): クロスモーダル・プロンプト:大規模事前学習モデルによる映像下流タスクの適応
- Authors: Haoyi Duan, Yan Xia, Mingze Zhou, Li Tang, Jieming Zhu, Zhou Zhao
- Abstract要約: 本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
- 参考スコア(独自算出の注目度): 55.36987468073152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the deployment of large-scale pre-trained models in
audio-visual downstream tasks has yielded remarkable outcomes. However, these
models, primarily trained on single-modality unconstrained datasets, still
encounter challenges in feature extraction for multi-modal tasks, leading to
suboptimal performance. This limitation arises due to the introduction of
irrelevant modality-specific information during encoding, which adversely
affects the performance of downstream tasks. To address this challenge, this
paper proposes a novel Dual-Guided Spatial-Channel-Temporal (DG-SCT) attention
mechanism. This mechanism leverages audio and visual modalities as soft prompts
to dynamically adjust the parameters of pre-trained models based on the current
multi-modal input features. Specifically, the DG-SCT module incorporates
trainable cross-modal interaction layers into pre-trained audio-visual
encoders, allowing adaptive extraction of crucial information from the current
modality across spatial, channel, and temporal dimensions, while preserving the
frozen parameters of large-scale pre-trained models. Experimental evaluations
demonstrate that our proposed model achieves state-of-the-art results across
multiple downstream tasks, including AVE, AVVP, AVS, and AVQA. Furthermore, our
model exhibits promising performance in challenging few-shot and zero-shot
scenarios. The source code and pre-trained models are available at
https://github.com/haoyi-duan/DG-SCT.
- Abstract(参考訳): 近年,視聴覚下タスクにおける大規模事前学習モデルの導入が目覚ましい結果をもたらしている。
しかしながら、これらのモデルは、主にシングルモダリティ非制約データセットでトレーニングされており、マルチモダリティタスクの機能抽出における課題に遭遇し、サブ最適パフォーマンスに繋がる。
この制限は、エンコーディング中に無関係なモダリティ固有の情報が導入されることによって生じ、下流タスクのパフォーマンスに悪影響を及ぼす。
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
このメカニズムは、ソフトプロンプトとしてオーディオと視覚のモダリティを活用し、現在のマルチモーダル入力特徴に基づいて事前訓練されたモデルのパラメータを動的に調整する。
具体的には、DG-SCTモジュールはトレーニング可能なクロスモーダル相互作用層を事前訓練されたオーディオ-視覚エンコーダに組み込み、大規模な事前訓練されたモデルの凍結パラメータを保存しながら、空間、チャネル、時間次元にわたる現在のモードから重要な情報を適応的に抽出することができる。
実験評価の結果,提案モデルはav,avvp,avs,avqaなど,複数の下流タスクにおいて最先端の結果が得られることが示された。
さらに,本モデルでは,数ショットとゼロショットのシナリオにおいて,有望な性能を示す。
ソースコードと事前訓練されたモデルはhttps://github.com/haoyi-duan/DG-SCTで入手できる。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Scalable Transformer for High Dimensional Multivariate Time Series Forecasting [10.17270031004674]
本研究では,高次元MSSデータ上でのチャネル依存モデルの最適性能の背景について検討する。
本稿では,高次元時系列予測のためのスケーラブル変換器STHDを提案する。
実験により、STHDは3つの高次元データセット(クリミア・シカゴ、ウィキ・ピープル、トラヒック)をかなり改善した。
論文 参考訳(メタデータ) (2024-08-08T06:17:13Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Revisiting Pre-training in Audio-Visual Learning [6.547660539954143]
事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。
対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
論文 参考訳(メタデータ) (2023-02-07T15:34:14Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。