論文の概要: WavLink: Compact Audio--Text Embeddings with a Global Whisper Token
- arxiv url: http://arxiv.org/abs/2601.15118v1
- Date: Wed, 21 Jan 2026 15:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.437133
- Title: WavLink: Compact Audio--Text Embeddings with a Global Whisper Token
- Title(参考訳): WavLink:グローバルなWhisperトークンを内蔵したコンパクトオーディオテキスト埋め込み
- Authors: Gokul Karthik Kumar, Ludovick Lepauloux, Hakim Hacid,
- Abstract要約: We present WavLink, a compact audio-text embeddedding model that a augment Whisper encoder with a learnable global token。
3つのモデルサイズにわたる2段階のトレーニングレシピと、Matryoshkaスタイルの監視を組み合わせることで、スケーラビリティを改善し、パフォーマンスの低下を最小限に抑えた8倍の小さな埋め込みを可能にしました。
- 参考スコア(独自算出の注目度): 4.000493292896401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whisper has become the de-facto encoder for extracting general-purpose audio features in large audio-language models, where a 30-second clip is typically represented by 1500 frame features projected into an LLM. In contrast, audio-text embedding models like CLAP-based models have largely relied on alternative audio encoders (e.g., HTS-AT, PaSST), and have not leveraged Whisper effectively. We present WavLink, a compact audio-text embedding model that augments Whisper encoder with a learnable global token, trained jointly with a text encoder. Through a systematic study of design choices, including pretrained text encoders, loss functions, training modes, and data mixtures, we identify configurations that yield state-of-the-art retrieval performance. Our two-stage training recipe across three model sizes, combined with Matryoshka-style supervision, improves scalability, enabling 8x smaller embeddings with minimal performance drop. WavLink also demonstrates competitive performance on AIR-Bench with MCQs and zero-shot classification.
- Abstract(参考訳): ウィスパーは大規模なオーディオ言語モデルで汎用オーディオ機能を抽出するためのデファクトエンコーダとなり、30秒のクリップは通常、LCMに投影された1500フレームのフィーチャで表現される。
対照的に、CLAPベースのモデルのようなオーディオテキスト埋め込みモデルは、代替オーディオエンコーダ(例えば、HTS-AT、PaSST)に大きく依存しており、Whisperを効果的に活用していない。
本稿では,Whisperエンコーダを学習可能なグローバルトークンで拡張する,コンパクトな音声テキスト埋め込みモデルであるWavLinkについて紹介する。
事前訓練されたテキストエンコーダ、損失関数、トレーニングモード、データ混合を含む設計選択の体系的研究を通じて、最先端の検索性能をもたらす構成を特定する。
3つのモデルサイズにわたる2段階のトレーニングレシピと、Matryoshkaスタイルの監視を組み合わせることで、スケーラビリティを改善し、パフォーマンスの低下を最小限に抑えた8倍の小さな埋め込みを可能にしました。
WavLinkは、MCQとゼロショット分類を備えたAIR-Bench上での競合性能もデモしている。
関連論文リスト
- UniVerse-1: Unified Audio-Video Generation via Stitching of Experts [59.38012380516272]
協調音声とビデオの同時生成が可能な統合型Veo-3型モデルUniVerse-1を提案する。
トレーニング効率を向上させるために、スクラッチからトレーニングをバイパスし、代わりに専門家の縫合技術(SoE)を用いる。
論文 参考訳(メタデータ) (2025-09-07T17:55:03Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。