論文の概要: Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder
- arxiv url: http://arxiv.org/abs/2603.08312v1
- Date: Mon, 09 Mar 2026 12:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.983047
- Title: Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder
- Title(参考訳): 統一音声エンコーダを用いた複数発話レベル属性表現の学習
- Authors: Maryem Bouziane, Salima Mdhaffar, Yannick Estève,
- Abstract要約: 自己教師付き学習で訓練された音声基礎モデルは、幅広い音声処理タスクをサポートする汎用的な音声表現を生成する。
最近のポストトレーニング手法は、音声表現を発話レベルの意味表現と整合させ、効果的なマルチモーダル(音声テキスト)と多言語アプリケーションを可能にする。
本稿では,複数種類の発話レベルの表現を単一音声基盤モデルで生成可能な統合後学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.899124832007042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech foundation models trained with self-supervised learning produce generic speech representations that support a wide range of speech processing tasks. When further adapted with supervised learning, these models can achieve strong performance on specific downstream tasks. Recent post-training approaches, such as SAMU-XSLR and SONAR, align speech representations with utterance-level semantic representations, enabling effective multimodal (speech-text) and multilingual applications. While speech foundation models typically learn contextual embeddings at the acoustic frame level, these methods learn representations at the utterance level. In this work, we extend this paradigm to arbitrary utterance-level attributes and propose a unified post-training framework that enables a single speech foundation model to generate multiple types of utterance-level representations. We demonstrate the effectiveness of this approach by jointly learning semantic and speaker representations and evaluating them on multilingual speech retrieval and speaker recognition tasks.
- Abstract(参考訳): 自己教師付き学習で訓練された音声基礎モデルは、幅広い音声処理タスクをサポートする汎用的な音声表現を生成する。
教師付き学習にさらに適応すると、これらのモデルは特定の下流タスクで強いパフォーマンスを達成することができる。
SAMU-XSLRやSONARといった最近のポストトレーニングアプローチは、音声表現を発話レベルの意味表現と整合させ、効果的なマルチモーダル(音声テキスト)と多言語アプリケーションを実現する。
音声基礎モデルは、通常、音響フレームレベルで文脈埋め込みを学習するが、これらの手法は発話レベルで表現を学習する。
本研究では、このパラダイムを任意の発話レベル属性に拡張し、単一音声基盤モデルで複数の発話レベル表現を生成可能な統合後学習フレームワークを提案する。
提案手法の有効性を,意味と話者表現を共同で学習し,多言語音声検索や話者認識タスクにおいて評価することで実証する。
関連論文リスト
- DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [40.81864091356371]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。