論文の概要: Expressive Speech Retrieval using Natural Language Descriptions of Speaking Style
- arxiv url: http://arxiv.org/abs/2508.11187v1
- Date: Fri, 15 Aug 2025 03:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.729522
- Title: Expressive Speech Retrieval using Natural Language Descriptions of Speaking Style
- Title(参考訳): 音声スタイルの自然言語記述を用いた表現的音声検索
- Authors: Wonjune Kang, Deb Roy,
- Abstract要約: 本稿では,表現型音声検索の課題について紹介する。
目的は、そのスタイルの自然言語記述に基づいて、所定のスタイルで話される発話を検索することである。
我々は音声とテキストエンコーダを訓練し、発話スタイルの音声とテキスト記述を共同潜在空間に埋め込む。
- 参考スコア(独自算出の注目度): 13.415189715216354
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the task of expressive speech retrieval, where the goal is to retrieve speech utterances spoken in a given style based on a natural language description of that style. While prior work has primarily focused on performing speech retrieval based on what was said in an utterance, we aim to do so based on how something was said. We train speech and text encoders to embed speech and text descriptions of speaking styles into a joint latent space, which enables using free-form text prompts describing emotions or styles as queries to retrieve matching expressive speech segments. We perform detailed analyses of various aspects of our proposed framework, including encoder architectures, training criteria for effective cross-modal alignment, and prompt augmentation for improved generalization to arbitrary text queries. Experiments on multiple datasets encompassing 22 speaking styles demonstrate that our approach achieves strong retrieval performance as measured by Recall@k.
- Abstract(参考訳): 目的は、そのスタイルの自然言語記述に基づいて、特定のスタイルで話される発話を検索することである。
先行研究は、主に発話中の発言に基づいて音声検索を行うことに重点を置いているが、その目的は、その発言の仕方に基づくものである。
我々は音声とテキストエンコーダを訓練し、音声スタイルの音声とテキスト記述を共同潜在空間に埋め込む。これにより、自由形式のテキストプロンプトを使用して、感情やスタイルをクエリとして記述し、一致する表現的音声セグメントを検索することができる。
提案するフレームワークの様々な側面を詳細に分析し、エンコーダアーキテクチャ、効果的なクロスモーダルアライメントのトレーニング基準、任意のテキストクエリへの一般化のための迅速な拡張を行う。
22の話し方を含む複数のデータセットに対する実験により,Recall@kで測定した強い検索性能が得られた。
関連論文リスト
- AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis [19.141058309358424]
本研究では,レトリーバル拡張生成(RAG)技術に基づくTTS(text-to-speech)フレームワークを提案する。
様々な文脈で高品質な音声サンプルを含む音声スタイルの知識データベースを構築した。
このスキームは、Llama、PER-LLM-Embedder、Mokaによって抽出された埋め込みを用いて知識データベースのサンプルとマッチングし、合成に最も適した音声スタイルを選択する。
論文 参考訳(メタデータ) (2025-04-14T15:18:59Z) - InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。
InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。
提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文 参考訳(メタデータ) (2025-03-04T16:34:14Z) - SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description [19.064845530513285]
本稿では,表現的かつ鮮明な人間の言語記述で単語中の音声クリップに注釈を付ける,解釈のための自動音声アノテーションシステムを提案する。
本システムでは,自然言語記述の調整による音声スタイルの深い理解を提供する。
約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。
論文 参考訳(メタデータ) (2024-08-24T15:36:08Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Speech-Text Dialog Pre-training for Spoken Dialog Understanding with
Explicit Cross-Modal Alignment [54.8991472306962]
ExpliCiT cRoss-Modal Alignment (SPECTRA) を用いた音声対話理解のための音声テキスト対話事前学習を提案する。
SPECTRAは、最初の音声テキストダイアログ事前学習モデルである。
4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。
論文 参考訳(メタデータ) (2023-05-19T10:37:56Z) - Towards Expressive Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis [37.93814851450597]
文脈から発話スタイルをモデル化するための階層的枠組みを提案する。
より広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。
このエンコーダがスタイル表現をより良く学習できるように、我々は新しいトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T05:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。