論文の概要: Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.00028v1
- Date: Sun, 27 Apr 2025 14:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.105734
- Title: Enhancing Speech-to-Speech Dialogue Modeling with End-to-End Retrieval-Augmented Generation
- Title(参考訳): エンドツーエンド検索拡張生成による音声音声対話モデルの強化
- Authors: Pengchao Feng, Ziyang Ma, Wenxi Chen, Yao Li, Sheng Wang, Kai Yu, Xie Chen,
- Abstract要約: 本稿では,音声クエリから関連するテキスト知識を直接取得する,新しいエンドツーエンドRAGフレームワークを提案する。
実験結果から,本手法はエンドツーエンドのS2S対話システムの性能を大幅に向上させることが示された。
我々のフレームワークは、エンド・ツー・エンドのS2Sシステムにおける知識統合を強化するための有望な方向性を提供します。
- 参考スコア(独自算出の注目度): 13.559210762117061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, end-to-end speech-to-speech (S2S) dialogue systems have garnered increasing research attention due to their advantages over traditional cascaded systems, including achieving lower latency and more natural integration of nonverbal cues such as emotion and speaker identity. However, these end-to-end systems face key challenges, particularly in incorporating external knowledge, a capability commonly addressed by Retrieval-Augmented Generation (RAG) in text-based large language models (LLMs). The core difficulty lies in the modality gap between input speech and retrieved textual knowledge, which hinders effective integration. To address this issue, we propose a novel end-to-end RAG framework that directly retrieves relevant textual knowledge from speech queries, eliminating the need for intermediate speech-to-text conversion via techniques like ASR. Experimental results demonstrate that our method significantly improves the performance of end-to-end S2S dialogue systems while achieving higher retrieval efficiency. Although the overall performance still lags behind cascaded models, our framework offers a promising direction for enhancing knowledge integration in end-to-end S2S systems. We will release the code and dataset to support reproducibility and promote further research in this area.
- Abstract(参考訳): 近年,低レイテンシ化や感情や話者識別といった非言語的手がかりの自然な統合など,従来のカスケードシステムに対する優位性から,エンドツーエンドの音声音声合成システム(S2S)が研究の注目を集めている。
しかし、これらのエンドツーエンドシステムは、特に外部知識を組み込むことにおいて、テキストベースの大規模言語モデル(LLM)において、一般にRAG(Retrieval-Augmented Generation)によって対処される能力である重要な課題に直面している。
中心となる困難は、入力音声と検索されたテキスト知識の間のモダリティギャップであり、効果的な統合を妨げる。
この問題に対処するために,音声クエリから関係するテキスト知識を直接取得し,ASRなどの手法による中間音声からテキストへの変換を不要とする,新しいエンドツーエンドRAGフレームワークを提案する。
実験により,本手法は検索効率を向上しつつ,エンドツーエンドのS2S対話システムの性能を著しく向上させることを示した。
我々のフレームワークは、エンド・ツー・エンドのS2Sシステムにおける知識統合を強化するための有望な方向性を提供します。
再現性をサポートし、この分野のさらなる研究を促進するために、コードとデータセットをリリースします。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Topic-Aware Response Generation in Task-Oriented Dialogue with
Unstructured Knowledge Access [20.881612071473118]
課題指向対話における話題情報をよりよく統合するために,トピック認識応答生成(TARG)を提案する。
TARGは、対話発話や外部知識ソースよりも重要度重み付け方式を導出するために、複数の話題認識型アテンション機構を組み込んでいる。
論文 参考訳(メタデータ) (2022-12-10T22:32:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Adapting Document-Grounded Dialog Systems to Spoken Conversations using
Data Augmentation and a Noisy Channel Model [46.93744191416991]
第10回ダイアログ・システム・テクノロジー・チャレンジ(DSTC10)第2章の報告を要約する。
このタスクは3つのサブタスクから構成される: ターンが知識を求めるかどうかを検知し、関連する知識文書を選択し、最後に接地された応答を生成する。
ベストシステムは,課題の人的評価において,第1位,第3位を達成できた。
論文 参考訳(メタデータ) (2021-12-16T12:51:52Z) - Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文 参考訳(メタデータ) (2021-12-13T15:49:36Z) - Retrieval-Free Knowledge-Grounded Dialogue Response Generation with
Adapters [52.725200145600624]
軽量アダプタで事前学習した言語モデルに事前知識を注入し、検索プロセスをバイパスする KnowExpert を提案する。
実験結果から,KnowExpertは検索ベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2021-05-13T12:33:23Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。