論文の概要: Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation
- arxiv url: http://arxiv.org/abs/2511.16757v1
- Date: Thu, 20 Nov 2025 19:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.795455
- Title: Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation
- Title(参考訳): 汎用音声表現学習のための音声事前学習の見直し
- Authors: Wei-Cheng Tseng, Xuanru Zhou, Mingyue Huo, Yiwen Shao, Hao Zhang, Dong Yu,
- Abstract要約: 我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。
以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。
これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
- 参考スコア(独自算出の注目度): 30.42124709340273
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio-language pretraining holds promise for general-purpose audio understanding, yet remains underexplored compared to its vision counterpart. While vision-language models like CLIP serve as widely adopted foundations, existing audio-language models primarily excel at retrieval tasks with limited adoption as general-purpose encoders. We identify three key barriers: limited large-scale audio-text corpora, insufficient caption diversity, and lack of systematic exploration and evaluation. To this end, we introduce CaptionStew, a 10.7M caption dataset aggregating diverse open-source audio-text corpora across multiple domains and captioning styles. Using this resource, we conduct the first comprehensive evaluation comparing contrastive and captioning objectives for audio representation learning across speech, music, and environmental sound tasks. Our results demonstrate that audio-language pretraining yields competitive, transferable representations. Through systematic data-scaling experiments, we reveal complementary objective strengths: contrastive learning achieves superior data efficiency at smaller scales, while captioning demonstrates better scalability on language-involved audio understanding tasks. We also find that common supervised initialization practices provide diminishing returns at scale, challenging current approaches. These findings establish audio-language pretraining as a viable pathway toward general-purpose audio representations, guiding future research. To accelerate progress, we release data preparation recipes, training protocols, and pretrained models, paving the way toward universal audio understanding.
- Abstract(参考訳): 音声による事前学習は、汎用的な音声理解の可能性を秘めている。
CLIPのような視覚言語モデルは広く採用されている基盤として機能するが、既存の音声言語モデルは、主に検索タスクに優れ、汎用エンコーダとしてしか採用されていない。
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。
この目的のために、CaptionStewは、複数のドメインにまたがる多様なオープンソースオーディオテキストコーパスとキャプションスタイルを集約する10.7Mキャプションデータセットである。
このリソースを用いて、音声、音楽、環境音のタスク間での音声表現学習において、コントラストとキャプションを比較検討した最初の総合評価を行う。
以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。
コントラスト学習は小さなスケールで優れたデータ効率を達成する一方、キャプションは言語に関連する音声理解タスクのスケーラビリティを向上する。
また、一般的な教師付き初期化プラクティスは、大規模なリターンを減らし、現在のアプローチに挑戦する。
これらの知見は, 汎用音声表現への有効な経路として, 音声事前学習を確立し, 今後の研究を導くものである。
進行を早めるため、我々はデータ準備のレシピ、トレーニングプロトコル、事前訓練されたモデルをリリースし、普遍的な音声理解への道を開く。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。