Fugu-MT 論文翻訳(概要): Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model

論文の概要: Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model

arxiv url: http://arxiv.org/abs/2309.11000v1
Date: Wed, 20 Sep 2023 01:48:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 17:44:41.289719
Title: Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model
Title（参考訳）: 大言語モデルに基づく対話応答と音声合成の協調モデリングに向けて
Authors: Xinyu Zhou, Delong Chen, Yudong Chen
Abstract要約: 本稿では,AI音声対話システムの構築の可能性について考察する。
参考スコア（独自算出の注目度）: 8.180382743037082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the potential of constructing an AI spoken dialogue system that "thinks how to respond" and "thinks how to speak" simultaneously, which more closely aligns with the human speech production process compared to the current cascade pipeline of independent chatbot and Text-to-Speech (TTS) modules. We hypothesize that Large Language Models (LLMs) with billions of parameters possess significant speech understanding capabilities and can jointly model dialogue responses and linguistic features. We conduct two sets of experiments: 1) Prosodic structure prediction, a typical front-end task in TTS, demonstrating the speech understanding ability of LLMs, and 2) Further integrating dialogue response and a wide array of linguistic features using a unified encoding format. Our results indicate that the LLM-based approach is a promising direction for building unified spoken dialogue systems.
Abstract（参考訳）: 本稿では,チャットボットとtts(text-to-speech)モジュールの現在のカスケードパイプラインと比較して,人間の発話生成プロセスと密接に連携する「応答の仕方」と「対話の仕方」を同時に考えるai音声対話システムを構築する可能性について検討する。数十億のパラメータを持つLarge Language Model (LLM) は、重要な音声理解能力を有し、対話応答と言語的特徴を共同でモデル化できると仮定する。二つの実験を行います 1)ttsにおける典型的なフロントエンドタスクである韻律構造予測は,llmの音声理解能力を示す。 2)さらに対話応答と幅広い言語的特徴を統一的な符号化形式で統合する。以上の結果から,llmに基づくアプローチは,音声対話システム構築に有望な方向性であることが示唆された。

関連論文リスト

NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-06-01T12:01:40Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。低レイテンシと自然なインタラクションを実現することは、大きな課題です。エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。 OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
STRUDEL: Structured Dialogue Summarization for Dialogue Comprehension [42.57581945778631]
抽象的な対話要約は、自然言語処理における重要なスタンドアロンタスクとみなされてきた。本稿では,新たな対話要約タスクであるSTRUctured DiaLoguE Summarizationを提案する。変換器エンコーダ言語モデルの対話理解性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-24T04:39:54Z)
Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History [38.65020349874135]
本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
論文参考訳（メタデータ） (2022-06-16T09:47:25Z)
Back to the Future: Bidirectional Information Decoupling Network for Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。 BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文参考訳（メタデータ） (2022-04-18T03:51:46Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文参考訳（メタデータ） (2020-06-27T08:24:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。