論文の概要: Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech
- arxiv url: http://arxiv.org/abs/2509.14627v1
- Date: Thu, 18 Sep 2025 05:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.076011
- Title: Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech
- Title(参考訳): 音声生成によるマルチモーダル対話エージェントの実現に向けて
- Authors: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim,
- Abstract要約: 本研究では,会話のムードと応答型情報に基づいて,音声応答を生成するヒューマンライクなエージェントを提案する。
エージェントが自然言語を生成できるようにするために,音声に着目した新しいマルチセンサ会話データセットを構築した。
実験結果から,会話における視覚的・音声的モダリティの両面を利用した係り受け音声生成の有効性が示された。
- 参考スコア(独自算出の注目度): 10.576716279533404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human conversation involves language, speech, and visual cues, with each medium providing complementary information. For instance, speech conveys a vibe or tone not fully captured by text alone. While multimodal LLMs focus on generating text responses from diverse inputs, less attention has been paid to generating natural and engaging speech. We propose a human-like agent that generates speech responses based on conversation mood and responsive style information. To achieve this, we build a novel MultiSensory Conversation dataset focused on speech to enable agents to generate natural speech. We then propose a multimodal LLM-based model for generating text responses and voice descriptions, which are used to generate speech covering paralinguistic information. Experimental results demonstrate the effectiveness of utilizing both visual and audio modalities in conversation to generate engaging speech. The source code is available in https://github.com/kimtaesu24/MSenC
- Abstract(参考訳): 人間の会話には言語、スピーチ、視覚的手がかりが含まれ、各媒体は補完的な情報を提供する。
例えば、音声はバイブやトーンを、テキストだけでは完全に捉えられていない。
マルチモーダルLLMは多様な入力からテキスト応答を生成することに重点を置いているが、自然で魅力的な音声を生成することにはあまり注意が払われていない。
本研究では,会話のムードと応答型情報に基づいて,音声応答を生成するヒューマンライクなエージェントを提案する。
これを実現するために、エージェントが自然な音声を生成できるようにするために、音声に焦点を当てた新しいマルチセンサ会話データセットを構築した。
次に,テキスト応答と音声記述を生成するマルチモーダルLLMモデルを提案する。
実験結果から,会話における視覚的・音声的モダリティの両面を利用した係り受け音声生成の有効性が示された。
ソースコードはhttps://github.com/kimtaesu24/MSenCで入手できる。
関連論文リスト
- Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation [56.683846056788326]
本稿では,自発音声対話gEnerationのためのSLMとLLMの統合を提案する。
本研究では,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測手法を提案する。
Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-01-01T11:11:07Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。