Fugu-MT 論文翻訳(概要): Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

論文の概要: Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

arxiv url: http://arxiv.org/abs/2406.07867v2
Date: Fri, 2 Aug 2024 15:05:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 17:43:44.667745
Title: Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
Title（参考訳）: 実話にしよう:対面会話のための音声対話モデル
Authors: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, Joanna Hong, Jeong Hun Yeo, Yong Man Ro,
Abstract要約: 本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
参考スコア（独自算出の注目度）: 55.043492250775294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a novel Face-to-Face spoken dialogue model. It processes audio-visual speech from user input and generates audio-visual speech as the response, marking the initial step towards creating an avatar chatbot system without relying on intermediate text. To this end, we newly introduce MultiDialog, the first large-scale multimodal (i.e., audio and visual) spoken dialogue corpus containing 340 hours of approximately 9,000 dialogues, recorded based on the open domain dialogue dataset, TopicalChat. The MultiDialog contains parallel audio-visual recordings of conversation partners acting according to the given script with emotion annotations, which we expect to open up research opportunities in multimodal synthesis. Our Face-to-Face spoken dialogue model incorporates a textually pretrained large language model and adapts it into the audio-visual spoken dialogue domain by incorporating speech-text joint pretraining. Through extensive experiments, we validate the effectiveness of our model in facilitating a face-to-face conversation. Demo and data are available at https://multidialog.github.io and https://huggingface.co/datasets/IVLLab/MultiDialog, respectively.
Abstract（参考訳）: 本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声-視覚音声を処理し、音声-視覚音声を応答として生成し、中間テキストに頼ることなくアバターチャットボットシステムを構築するための最初のステップを示す。この目的のために我々は,オープンドメイン対話データセットであるTopicalChatに基づいて,約9000対話の340時間を含む,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを新たに導入した。マルチダイアログには、与えられたスクリプトに従って行動する会話相手の音声と視覚の同時記録が含まれており、マルチモーダル合成の研究機会が開けることを期待している。我々の対面音声対話モデルは、テキスト事前学習された大きな言語モデルを導入し、音声-テキスト共同学習を取り入れて音声-視覚対話領域に適応する。広範にわたる実験を通して, 対面会話の促進におけるモデルの有効性を検証した。デモとデータはhttps://multidialog.github.ioとhttps://huggingface.co/datasets/IVLLab/MultiDialogで公開されている。

関連論文リスト

TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation [72.46711449668814]
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
論文参考訳（メタデータ） (2025-12-23T12:04:23Z)
Spoken DialogSum: An Emotion-Rich Conversational Dataset for Spoken Dialogue Summarization [21.32336226752075]
Spoken DialogSumは、生の会話音声を現実の要約、感情に富んだ要約、発話レベルラベルと整合させる最初のコーパスである。まず、LLMがDialogSumスクリプトをSwitchboardスタイルのフィラーとバックチャネルで書き直し、各発話を感情、ピッチ、発話率でタグ付けする。 Spoken DialogSumは13,460の感情の異なる対話で構成され、それぞれが事実と感情に焦点を当てた要約をペアリングする。
論文参考訳（メタデータ） (2025-12-16T18:54:20Z)
ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching [22.477986192421767]
本稿では,フローマッチングに基づく非自己回帰音声対話生成モデルZipVoice-Dialogを紹介する。主なデザインは、正確な話者のターンテイクのためのスピーカーターン埋め込みである。我々は6.8khの音声対話データセットであるOpenDialogを、帯域内音声データからキュレートした。
論文参考訳（メタデータ） (2025-07-12T15:18:47Z)
DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling [73.08187964426823]
大規模言語モデル (LLM) によって実現された対話システムは、人間と機械の相互作用において中心的なモードの1つとなっている。本稿では,新しい研究課題--$textbfD$ialogue $textbfE$lement $textbfMO$delingを紹介する。本稿では,包括的対話モデリングと評価のために設計された新しいベンチマークである$textbfDEMO$を提案する。
論文参考訳（メタデータ） (2024-12-06T10:01:38Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文参考訳（メタデータ） (2023-09-18T11:03:55Z)
ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文参考訳（メタデータ） (2023-04-16T18:16:35Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization [19.918194137007653]
本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-09-06T13:55:03Z)
MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話) 架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文参考訳（メタデータ） (2021-08-16T15:27:49Z)
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。 OpenViDialには、合計11万の対話ターンが含まれている。テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文参考訳（メタデータ） (2020-12-30T03:02:50Z)
Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文参考訳（メタデータ） (2020-04-07T02:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。