Fugu-MT 論文翻訳(概要): Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks

論文の概要: Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks

arxiv url: http://arxiv.org/abs/2311.05152v1
Date: Thu, 9 Nov 2023 05:24:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 16:07:11.582564
Title: Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks
Title（参考訳）: クロスモーダル・プロンプト:大規模事前学習モデルによる映像下流タスクの適応
Authors: Haoyi Duan, Yan Xia, Mingze Zhou, Li Tang, Jieming Zhu, Zhou Zhao
Abstract要約: 本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
参考スコア（独自算出の注目度）: 55.36987468073152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the deployment of large-scale pre-trained models in audio-visual downstream tasks has yielded remarkable outcomes. However, these models, primarily trained on single-modality unconstrained datasets, still encounter challenges in feature extraction for multi-modal tasks, leading to suboptimal performance. This limitation arises due to the introduction of irrelevant modality-specific information during encoding, which adversely affects the performance of downstream tasks. To address this challenge, this paper proposes a novel Dual-Guided Spatial-Channel-Temporal (DG-SCT) attention mechanism. This mechanism leverages audio and visual modalities as soft prompts to dynamically adjust the parameters of pre-trained models based on the current multi-modal input features. Specifically, the DG-SCT module incorporates trainable cross-modal interaction layers into pre-trained audio-visual encoders, allowing adaptive extraction of crucial information from the current modality across spatial, channel, and temporal dimensions, while preserving the frozen parameters of large-scale pre-trained models. Experimental evaluations demonstrate that our proposed model achieves state-of-the-art results across multiple downstream tasks, including AVE, AVVP, AVS, and AVQA. Furthermore, our model exhibits promising performance in challenging few-shot and zero-shot scenarios. The source code and pre-trained models are available at https://github.com/haoyi-duan/DG-SCT.
Abstract（参考訳）: 近年,視聴覚下タスクにおける大規模事前学習モデルの導入が目覚ましい結果をもたらしている。しかしながら、これらのモデルは、主にシングルモダリティ非制約データセットでトレーニングされており、マルチモダリティタスクの機能抽出における課題に遭遇し、サブ最適パフォーマンスに繋がる。この制限は、エンコーディング中に無関係なモダリティ固有の情報が導入されることによって生じ、下流タスクのパフォーマンスに悪影響を及ぼす。本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。このメカニズムは、ソフトプロンプトとしてオーディオと視覚のモダリティを活用し、現在のマルチモーダル入力特徴に基づいて事前訓練されたモデルのパラメータを動的に調整する。具体的には、DG-SCTモジュールはトレーニング可能なクロスモーダル相互作用層を事前訓練されたオーディオ-視覚エンコーダに組み込み、大規模な事前訓練されたモデルの凍結パラメータを保存しながら、空間、チャネル、時間次元にわたる現在のモードから重要な情報を適応的に抽出することができる。実験評価の結果,提案モデルはav,avvp,avs,avqaなど,複数の下流タスクにおいて最先端の結果が得られることが示された。さらに,本モデルでは,数ショットとゼロショットのシナリオにおいて,有望な性能を示す。ソースコードと事前訓練されたモデルはhttps://github.com/haoyi-duan/DG-SCTで入手できる。

関連論文リスト

Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。 SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文参考訳（メタデータ） (2025-07-07T10:08:57Z)
Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文参考訳（メタデータ） (2024-11-14T23:56:57Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Scalable Transformer for High Dimensional Multivariate Time Series Forecasting [10.17270031004674]
本研究では,高次元MSSデータ上でのチャネル依存モデルの最適性能の背景について検討する。本稿では,高次元時系列予測のためのスケーラブル変換器STHDを提案する。実験により、STHDは3つの高次元データセット(クリミア・シカゴ、ウィキ・ピープル、トラヒック)をかなり改善した。
論文参考訳（メタデータ） (2024-08-08T06:17:13Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文参考訳（メタデータ） (2024-02-04T06:55:55Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Revisiting Pre-training in Audio-Visual Learning [6.547660539954143]
事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
論文参考訳（メタデータ） (2023-02-07T15:34:14Z)
Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-02-21T05:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。