Fugu-MT 論文翻訳(概要): J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling

論文の概要: J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling

arxiv url: http://arxiv.org/abs/2407.15828v1
Date: Mon, 22 Jul 2024 17:46:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 13:51:10.687386
Title: J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling
Title（参考訳）: J-CHAT:音声対話言語モデリングのための大規模対話コーパス
Authors: Wataru Nakata, Kentaro Seki, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari,
Abstract要約: 音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とするヒッカ品質の音声生成を確実にするためには、データはWild内のデータのように自然に必要であり、ノイズを除去して音響的にクリーンでなければならない。本研究では,人間-AI対話のための日本語コーパス(J-CHAT)という,大規模音声対話コーパスの構築とリリースによって,このギャップに対処する。本稿では、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。
参考スコア（独自算出の注目度）: 43.87842102048749
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spoken dialogue plays a crucial role in human-AI interactions, necessitating dialogue-oriented spoken language models (SLMs). To develop versatile SLMs, large-scale and diverse speech datasets are essential. Additionally, to ensure hiqh-quality speech generation, the data must be spontaneous like in-wild data and must be acoustically clean with noise removed. Despite the critical need, no open-source corpus meeting all these criteria has been available. This study addresses this gap by constructing and releasing a large-scale spoken dialogue corpus, named Japanese Corpus for Human-AI Talks (J-CHAT), which is publicly accessible. Furthermore, this paper presents a language-independent method for corpus construction and describes experiments on dialogue generation using SLMs trained on J-CHAT. Experimental results indicate that the collected data from multiple domains by our method improve the naturalness and meaningfulness of dialogue generation.
Abstract（参考訳）: 音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とする。汎用SLMを開発するためには,大規模かつ多様な音声データセットが不可欠である。さらに、ヒクフ品質の音声生成を確実にするためには、データはWild内のデータのように自発的に行う必要があり、ノイズを除去して音響的にクリーンにする必要がある。批判的な必要性にもかかわらず、これらの基準を満たすオープンソースコーパスは提供されていない。本研究では,日本語音声対話コーパス(J-CHAT)を構築・公開することで,このギャップを解消する。さらに、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。実験結果から,複数のドメインから収集したデータは対話生成の自然性と有意義性を向上させることが示唆された。

関連論文リスト

SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development [42.598003881584816]
自然言語対話を効率的に生成するための生産対応フレームワークであるtextscSpeechDialogueFactory を紹介する。提案手法では,メタデータ生成,対話スクリプティング,パラ言語に富んだ発話シミュレーション,音声クローニングによる自然な音声合成を含む包括的パイプラインを用いる。私たちはオープンソースツールキットとして、サンプルデータセットを英語と中国語で公開しています。
論文参考訳（メタデータ） (2025-03-31T08:52:21Z)
OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios [45.78414948567598]
本稿では,多種多様なシナリオの対話モデルを強化するために合成データを活用することを提案する。 ShareChatXは、多様なシナリオにまたがる音声対話のための、最初の包括的な大規模データセットである。また、合成データを用いた対話システムの訓練における重要な側面についても検討する。
論文参考訳（メタデータ） (2025-01-02T17:58:23Z)
Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文参考訳（メタデータ） (2024-07-02T03:22:41Z)
Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。長文対話要約のための話者強化事前学習手法を提案する。
論文参考訳（メタデータ） (2024-01-31T04:50:00Z)
Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文参考訳（メタデータ） (2023-09-20T01:48:27Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
Back to the Future: Bidirectional Information Decoupling Network for Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。 BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文参考訳（メタデータ） (2022-04-18T03:51:46Z)
Learning-by-Narrating: Narrative Pre-Training for Zero-Shot Dialogue Comprehension [48.483910831143724]
対話を補完するには、発話中の様々なキー情報をキャプチャするモデルが必要である。そこで我々は,対話入力からキー情報をナレーションすることで学習する,物語誘導型事前学習戦略を開発した。
論文参考訳（メタデータ） (2022-03-19T05:20:25Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。