論文の概要: When Vision Models Meet Parameter Efficient Look-Aside Adapters Without Large-Scale Audio Pretraining
- arxiv url: http://arxiv.org/abs/2412.05951v1
- Date: Sun, 08 Dec 2024 14:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:21.247162
- Title: When Vision Models Meet Parameter Efficient Look-Aside Adapters Without Large-Scale Audio Pretraining
- Title(参考訳): 大規模オーディオ事前学習を伴わない高能率ルックアサイド適応器を用いた視覚モデルの検討
- Authors: Juan Yeo, Jinkwan Jang, Kyubyung Chae, Seongkyu Mun, Taesup Kim,
- Abstract要約: 本研究では,Look Aside Adapter (LoAA) を用いて視覚モデルを直接微調整することにより,事前学習段階をバイパスすることを提案する。
実験により, 種々の音声・音声タスクにおいて, 視覚モデルが事前学習された音声モデルの性能に到達または超えることを示す。
- 参考スコア(独自算出の注目度): 5.717224738376866
- License:
- Abstract: Recent studies show that pretrained vision models can boost performance in audio downstream tasks. To enhance the performance further, an additional pretraining stage with large scale audio data is typically required to infuse audio specific knowledge into the vision model. However, such approaches require extensive audio data and a carefully designed objective function. In this work, we propose bypassing the pretraining stage by directly fine-tuning the vision model with our Look Aside Adapter (LoAA) designed for efficient audio understanding. Audio spectrum data is represented across two heterogeneous dimensions time and frequency and we refine adapters to facilitate interactions between tokens across these dimensions. Our experiments demonstrate that our adapters allow vision models to reach or surpass the performance of pretrained audio models in various audio and speech tasks, offering a resource efficient and effective solution for leveraging vision models in audio applications.
- Abstract(参考訳): 近年の研究では、事前学習された視覚モデルにより、音声下流タスクのパフォーマンスが向上することが示されている。
性能をさらに向上させるためには、視覚モデルに音声特有の知識を注入するためには、大規模な音声データを含む追加の事前訓練段階が必要である。
しかし,このような手法には広範囲な音声データと,慎重に設計された目的関数が必要である。
本研究では,視覚モデルを直接微調整することで事前学習段階を回避し,効率的な音声理解を目的としたLook Aside Adapter (LoAA) を提案する。
音声スペクトルデータは2つの異種次元の時間と周波数で表現され、これらの次元のトークン間の相互作用を促進するためにアダプタを改良する。
本実験は,視覚モデルが様々な音声・音声タスクにおいて,事前学習された音声モデルの性能に到達または超えることを実証し,音声アプリケーションにおける視覚モデルを活用するための資源効率と効果的なソリューションを提供する。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。