論文の概要: Towards human-like spoken dialogue generation between AI agents from
written dialogue
- arxiv url: http://arxiv.org/abs/2310.01088v1
- Date: Mon, 2 Oct 2023 11:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:22:01.784666
- Title: Towards human-like spoken dialogue generation between AI agents from
written dialogue
- Title(参考訳): aiエージェント間のヒューマンライクな対話生成に向けて
- Authors: Kentaro Mitsui, Yukiya Hono, Kei Sawada
- Abstract要約: 本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
- 参考スコア(独自算出の注目度): 8.4989907582951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large language models (LLMs) has made it possible to generate
natural written dialogues between two agents. However, generating human-like
spoken dialogues from these written dialogues remains challenging. Spoken
dialogues have several unique characteristics: they frequently include
backchannels and laughter, and the smoothness of turn-taking significantly
influences the fluidity of conversation. This study proposes CHATS - CHatty
Agents Text-to-Speech - a discrete token-based system designed to generate
spoken dialogues based on written dialogues. Our system can generate speech for
both the speaker side and the listener side simultaneously, using only the
transcription from the speaker side, which eliminates the need for
transcriptions of backchannels or laughter. Moreover, CHATS facilitates natural
turn-taking; it determines the appropriate duration of silence after each
utterance in the absence of overlap, and it initiates the generation of
overlapping speech based on the phoneme sequence of the next utterance in case
of overlap. Experimental evaluations indicate that CHATS outperforms the
text-to-speech baseline, producing spoken dialogues that are more interactive
and fluid while retaining clarity and intelligibility.
- Abstract(参考訳): 大きな言語モデル(LLM)の出現により、2つのエージェント間の自然な対話を生成することが可能になった。
しかし,これらの対話文から人間的な音声対話を生成することは依然として困難である。
音声対話は、バックチャンネルや笑いを頻繁に含み、ターンテイキングの滑らかさは会話の流動性に大きな影響を及ぼす。
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側からの書き起こしのみを用いて,話者側と聞き手側の両方の音声を同時に生成できるため,バックチャネルの書き起こしや笑いを不要にする。
さらに、CHATSは自然のターンテイクを容易にし、重なりのない各発話後の沈黙の適切な持続時間を決定し、重なりの場合に次の発話の音素シーケンスに基づいて重なり合う音声を生成する。
実験の結果、チャットはテキスト対音声のベースラインよりも優れており、明瞭さと知性を維持しつつ、より対話的で流動的な音声対話を生成する。
関連論文リスト
- Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning
Framework for Dialogue [14.595548353288525]
マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。
エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。
論文 参考訳(メタデータ) (2024-02-10T14:52:52Z) - Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。
本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文 参考訳(メタデータ) (2023-08-29T06:27:58Z) - Speech-Text Dialog Pre-training for Spoken Dialog Understanding with
Explicit Cross-Modal Alignment [54.8991472306962]
ExpliCiT cRoss-Modal Alignment (SPECTRA) を用いた音声対話理解のための音声テキスト対話事前学習を提案する。
SPECTRAは、最初の音声テキストダイアログ事前学習モデルである。
4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。
論文 参考訳(メタデータ) (2023-05-19T10:37:56Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis
Using Linguistic and Prosodic Contexts of Dialogue History [38.65020349874135]
本稿では,エンド・ツー・エンド対話音声合成(DSS)モデルを提案する。
本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。
共感的DSSモデルを効果的に訓練するために,1) 大規模音声コーパスで事前訓練された自己教師型学習モデル,2) 対話コンテキスト埋め込みによって予測される現在の発話の韻律埋め込みを用いたスタイル誘導学習,3) テキストと音声のモダリティを結合するクロスモーダルな注意,4) 発話のワイドなモデリングよりもきめ細かな韻律モデリングを実現するための文の埋め込みについて検討する。
論文 参考訳(メタデータ) (2022-06-16T09:47:25Z) - UniDS: A Unified Dialogue System for Chit-Chat and Task-oriented
Dialogues [59.499965460525694]
上記の2つのスキルを備えた統合対話システム(UniDS)を提案する。
我々は、チャットとタスク指向の対話の両方に対応可能な統合対話データスキーマを設計する。
我々は、事前訓練されたチャット対話モデルから混合対話データでUniDSを訓練する。
論文 参考訳(メタデータ) (2021-10-15T11:56:47Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。