Fugu-MT 論文翻訳(概要): Towards human-like spoken dialogue generation between AI agents from written dialogue

論文の概要: Towards human-like spoken dialogue generation between AI agents from written dialogue

arxiv url: http://arxiv.org/abs/2310.01088v1
Date: Mon, 2 Oct 2023 11:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 22:22:01.784666
Title: Towards human-like spoken dialogue generation between AI agents from written dialogue
Title（参考訳）: aiエージェント間のヒューマンライクな対話生成に向けて
Authors: Kentaro Mitsui, Yukiya Hono, Kei Sawada
Abstract要約: 本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
参考スコア（独自算出の注目度）: 8.4989907582951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of large language models (LLMs) has made it possible to generate natural written dialogues between two agents. However, generating human-like spoken dialogues from these written dialogues remains challenging. Spoken dialogues have several unique characteristics: they frequently include backchannels and laughter, and the smoothness of turn-taking significantly influences the fluidity of conversation. This study proposes CHATS - CHatty Agents Text-to-Speech - a discrete token-based system designed to generate spoken dialogues based on written dialogues. Our system can generate speech for both the speaker side and the listener side simultaneously, using only the transcription from the speaker side, which eliminates the need for transcriptions of backchannels or laughter. Moreover, CHATS facilitates natural turn-taking; it determines the appropriate duration of silence after each utterance in the absence of overlap, and it initiates the generation of overlapping speech based on the phoneme sequence of the next utterance in case of overlap. Experimental evaluations indicate that CHATS outperforms the text-to-speech baseline, producing spoken dialogues that are more interactive and fluid while retaining clarity and intelligibility.
Abstract（参考訳）: 大きな言語モデル(LLM)の出現により、2つのエージェント間の自然な対話を生成することが可能になった。しかし,これらの対話文から人間的な音声対話を生成することは依然として困難である。音声対話は、バックチャンネルや笑いを頻繁に含み、ターンテイキングの滑らかさは会話の流動性に大きな影響を及ぼす。本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。本システムでは,話者側からの書き起こしのみを用いて,話者側と聞き手側の両方の音声を同時に生成できるため,バックチャネルの書き起こしや笑いを不要にする。さらに、CHATSは自然のターンテイクを容易にし、重なりのない各発話後の沈黙の適切な持続時間を決定し、重なりの場合に次の発話の音素シーケンスに基づいて重なり合う音声を生成する。実験の結果、チャットはテキスト対音声のベースラインよりも優れており、明瞭さと知性を維持しつつ、より対話的で流動的な音声対話を生成する。

関連論文リスト

Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue [17.397151329196955]
本稿では,新しいハイブリッドエージェントベース音声合成フレームワークであるDialogueAgentsを提案する。バイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkにコントリビュートする。
論文参考訳（メタデータ） (2025-04-20T04:14:30Z)
SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation [56.683846056788326]
本稿では,自発音声対話gEnerationのためのSLMとLLMの統合を提案する。本研究では,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測手法を提案する。 Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
論文参考訳（メタデータ） (2025-01-01T11:11:07Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-08-13T04:35:11Z)
Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文参考訳（メタデータ） (2023-08-29T06:27:58Z)
A Benchmark for Understanding and Generating Dialogue between Characters in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。 DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文参考訳（メタデータ） (2022-09-18T10:19:04Z)
Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History [38.65020349874135]
本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
論文参考訳（メタデータ） (2022-06-16T09:47:25Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。