論文の概要: Learning Disentangled Speech Representations
- arxiv url: http://arxiv.org/abs/2311.03389v1
- Date: Sat, 4 Nov 2023 04:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:27:19.106354
- Title: Learning Disentangled Speech Representations
- Title(参考訳): 異節音声表現の学習
- Authors: Yusuf Brima, Ulf Krumnack, Simone Pika and Gunther Heidemann
- Abstract要約: 多くのアプリケーション領域において重要でありながら、音声からのアンタングル表現学習は依然として限られている。
主な課題は、メソッドを評価するための既知の生成因子を持つ音声データセットの欠如である。
本稿では, 音声表現の非接触化に関する研究を可能にする基礎的真理因子を用いた合成音声データセットSynSpeechを提案する。
- 参考スコア(独自算出の注目度): 0.45060992929802207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangled representation learning from speech remains limited despite its
importance in many application domains. A key challenge is the lack of speech
datasets with known generative factors to evaluate methods. This paper proposes
SynSpeech: a novel synthetic speech dataset with ground truth factors enabling
research on disentangling speech representations. We plan to present a
comprehensive study evaluating supervised techniques using established
supervised disentanglement metrics. This benchmark dataset and framework
address the gap in the rigorous evaluation of state-of-the-art disentangled
speech representation learning methods. Our findings will provide insights to
advance this underexplored area and enable more robust speech representations.
- Abstract(参考訳): 多くのアプリケーション領域において重要でありながら、音声からのアンタングル表現学習は限定的である。
主要な課題は、メソッドを評価するための既知の生成因子を持つ音声データセットの欠如である。
本稿では, 音声表現の非接触化に関する研究を可能にする基礎的真理因子を用いた合成音声データセットSynSpeechを提案する。
本研究は,教師付きディスタングルメント指標を用いて教師付き手法の評価を行う。
このベンチマークデータセットとフレームワークは、最先端不連続音声表現学習法の厳密な評価のギャップに対処する。
我々の発見は、この未探索領域を前進させ、より堅牢な音声表現を可能にする洞察を与える。
関連論文リスト
- How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis [3.691712391306624]
細粒度潜在空間もまた粗粒度情報を捉えており、これは多彩な韻律表現を捉えるために潜在空間の次元が大きくなるにつれて明らかである。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、前ステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
論文 参考訳(メタデータ) (2022-11-01T15:17:25Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。