論文の概要: Towards a Japanese Full-duplex Spoken Dialogue System
- arxiv url: http://arxiv.org/abs/2506.02979v1
- Date: Tue, 03 Jun 2025 15:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.810073
- Title: Towards a Japanese Full-duplex Spoken Dialogue System
- Title(参考訳): 日本語全二重音声対話システムに向けて
- Authors: Atsumoto Ohashi, Shinya Iizuka, Jingjing Jiang, Ryuichiro Higashinaka,
- Abstract要約: 近年,音声対話システムが注目されている。
本稿では,日本語で利用可能なフルステージ音声対話モデルについて紹介する。
本モデルは,日本語における大規模音声対話データに対する事前学習と,高品質なステレオ音声対話データによる微調整の2チャンネルプロセスを通じて訓練される。
- 参考スコア(独自算出の注目度): 8.984488716637655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex spoken dialogue systems, which can model simultaneous bidirectional features of human conversations such as speech overlaps and backchannels, have attracted significant attention recently. However, the study of full-duplex spoken dialogue systems for the Japanese language has been limited, and the research on their development in Japanese remains scarce. In this paper, we present the first publicly available full-duplex spoken dialogue model in Japanese, which is built upon Moshi, a full-duplex dialogue model in English. Our model is trained through a two-stage process: pre-training on a large-scale spoken dialogue data in Japanese, followed by fine-tuning on high-quality stereo spoken dialogue data. We further enhance the model's performance by incorporating synthetic dialogue data generated by a multi-stream text-to-speech system. Evaluation experiments demonstrate that the trained model outperforms Japanese baseline models in both naturalness and meaningfulness.
- Abstract(参考訳): 音声の重複やバックチャネルなど,人間の会話の双方向的特徴を同時にモデル化できるフル二重音声対話システムは,近年注目されている。
しかし、日本語のフル二重音声対話システムの研究は限定的であり、日本語におけるその発達に関する研究はいまだ少ない。
本稿では,英語における全二重対話モデルであるMoshiをベースに構築された,日本語で利用可能な最初の全二重対話モデルを提案する。
本モデルは,日本語における大規模音声対話データに対する事前学習と,高品質なステレオ音声対話データによる微調整という2段階のプロセスによって訓練される。
マルチストリーム音声合成システムによって生成された合成対話データを組み込むことで、モデルの性能をさらに向上する。
評価実験により, 学習モデルは, 自然性と有意性の両方において日本人のベースラインモデルより優れていることが示された。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Building a Taiwanese Mandarin Spoken Language Model: A First Attempt [44.54200115439157]
本報告は,マルチターン会話におけるリアルタイム音声対話を実現するために,台湾語マンダリンのための大規模音声言語モデル(MLL)を構築することを目的とする。
エンドツーエンドモデルにはデコーダのみのトランスフォーマーアーキテクチャが組み込まれており,会話の流路を保ちながらシームレスな対話を実現することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T16:37:40Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative
Pre-Training [40.85554509137999]
本研究では,2.8Bパラメータを持つ中国最大の事前学習対話モデルを含む中国語対話システムであるEVAを提案する。
このモデルを構築するために、様々なソーシャルメディアからWDC-Dialogueという名前の中国語対話データセットを収集する。
自動評価と人的評価の実験は、EVAが他の中国の事前学習対話モデルより優れていることを示している。
論文 参考訳(メタデータ) (2021-08-03T14:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。