論文の概要: SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
- arxiv url: http://arxiv.org/abs/2601.12594v1
- Date: Sun, 18 Jan 2026 21:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.693123
- Title: SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training
- Title(参考訳): SLAP: 可変Durationオーディオと多目的学習によるスケーラブルな言語監査準備
- Authors: Xinhao Mei, Gael Le Lan, Haohe Liu, Zhaoheng Ni, Varun Nagaraja, Yang Liu, Yangyang Shi, Vikas Chandra,
- Abstract要約: 本稿では,言語とオーディオの事前学習を1億9900万のオーディオテキストペアに拡張するSLAPについて紹介する。
SLAPは、シングルステージトレーニングにおける自己監督とキャプションの損失を追加して対照的な損失を統一し、よりリッチな高密度オーディオ表現の学習を容易にする。
- 参考スコア(独自算出の注目度): 31.192251626550203
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive language-audio pretraining (CLAP) has achieved notable success in learning semantically rich audio representations and is widely adopted for various audio-related tasks. However, current CLAP models face several key limitations. First, they are typically trained on relatively small datasets, often comprising a few million audio samples. Second, existing CLAP models are restricted to short and fixed duration, which constrains their usage in real-world scenarios with variable-duration audio. Third, the standard contrastive training objective operates on global representations, which may hinder the learning of dense, fine-grained audio features. To address these challenges, we introduce Scalable Language-Audio Pretraining (SLAP), which scales language-audio pretraining to 109 million audio-text pairs with variable audio durations and incorporates multiple training objectives. SLAP unifies contrastive loss with additional self-supervised and captioning losses in a single-stage training, facilitating the learning of richer dense audio representations. The proposed SLAP model achieves new state-of-the-art performance on audio-text retrieval and zero-shot audio classification tasks, demonstrating its effectiveness across diverse benchmarks.
- Abstract(参考訳): Contrastive Language-audio Pretraining (CLAP)は意味的にリッチな音声表現の学習において顕著な成功を収め、様々な音声関連タスクに広く採用されている。
しかし、現在のCLAPモデルはいくつかの重要な制限に直面している。
まず、通常は比較的小さなデータセットでトレーニングされ、しばしば数百万のオーディオサンプルから構成される。
第二に、既存のCLAPモデルは短い期間と一定期間に限定されており、可変デューレーションオーディオを用いた実世界のシナリオでの使用を制限している。
第三に、標準的なコントラスト訓練の対象はグローバルな表現であり、密集したきめ細かなオーディオ特徴の学習を妨げる可能性がある。
これらの課題に対処するために,言語とオーディオの事前学習を1億9900万のオーディオテキストペアに拡張し,複数のトレーニング目標を組み込む,スケーラブル言語-監査事前学習(SLAP)を紹介した。
SLAPは、シングルステージトレーニングにおける自己監督とキャプションの損失を追加して対照的な損失を統一し、よりリッチな高密度オーディオ表現の学習を容易にする。
提案したSLAPモデルは、音声テキスト検索とゼロショット音声分類タスクにおける最先端のパフォーマンスを新たに達成し、様々なベンチマークでその効果を実証する。
関連論文リスト
- Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。
以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。
これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文 参考訳(メタデータ) (2025-11-20T19:17:35Z) - USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文 参考訳(メタデータ) (2025-06-23T17:02:00Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。