論文の概要: Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model
- arxiv url: http://arxiv.org/abs/2407.01911v1
- Date: Tue, 2 Jul 2024 03:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:53:49.192683
- Title: Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model
- Title(参考訳): 対話生成音声言語モデルにおける大規模擬似ステレオデータと異なる音声基礎モデルの効果の検討
- Authors: Yu-Kuan Fu, Cheng-Kuang Lee, Hsiu-Hsuan Wang, Hung-yi Lee,
- Abstract要約: 単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
- 参考スコア(独自算出の注目度): 47.67067056593085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts in Spoken Dialogue Modeling aim to synthesize spoken dialogue without the need for direct transcription, thereby preserving the wealth of non-textual information inherent in speech. However, this approach faces a challenge when speakers talk simultaneously, requiring stereo dialogue data with speakers recorded on separate channels, a notably scarce resource. To address this, we have developed an innovative pipeline capable of transforming single-channel dialogue data into pseudo-stereo data. This expanded our training dataset from a mere 2,000 to an impressive 17,600 hours, significantly enriching the diversity and quality of the training examples available. The inclusion of this pseudo-stereo data has proven to be effective in improving the performance of spoken dialogue language models. Additionally, we explored the use of discrete units of different speech foundation models for spoken dialogue generation.
- Abstract(参考訳): 音声対話モデリングにおける最近の取り組みは、直接転写を必要とせずに音声対話を合成することを目的としており、それによって、音声に固有の非テキスト情報の豊富さを保っている。
しかし、これは話者が同時に話すときの課題であり、異なるチャンネルで録音された話者とのステレオ対話データを必要とする。
そこで我々は,シングルチャネル対話データを擬似ステレオデータに変換する革新的なパイプラインを開発した。
これにより、トレーニングデータセットをわずか2000時間から17,600時間に拡大し、利用可能なトレーニングサンプルの多様性と品質を大幅に向上しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
さらに、音声対話生成に異なる音声基盤モデルの離散単位を用いる方法について検討した。
関連論文リスト
- J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling [43.87842102048749]
音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とする
ヒッカ品質の音声生成を確実にするためには、データはWild内のデータのように自然に必要であり、ノイズを除去して音響的にクリーンでなければならない。
本研究では,人間-AI対話のための日本語コーパス(J-CHAT)という,大規模音声対話コーパスの構築とリリースによって,このギャップに対処する。
本稿では、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。
論文 参考訳(メタデータ) (2024-07-22T17:46:50Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Low-resource expressive text-to-speech using data augmentation [12.396086122947679]
本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-11T11:22:37Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。