論文の概要: KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI
- arxiv url: http://arxiv.org/abs/2510.02327v1
- Date: Fri, 26 Sep 2025 00:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.996192
- Title: KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI
- Title(参考訳): KAME: リアルタイム音声対話AIにおける知識向上のためのタンデムアーキテクチャ
- Authors: So Kuroki, Yotaro Kubo, Takuya Akiba, Yujin Tang,
- Abstract要約: リアルタイム音声合成(S2S)モデルは低レイテンシな会話応答を生成するのに優れているが、深い知識と意味理解が欠けていることが多い。
自動音声認識、テキストベース大規模言語モデル(LLM)、テキスト音声合成を組み合わせたCケースドシステムは、高いレイテンシを犠牲にして優れた知識表現を提供する。
本稿では,この2つのパラダイムのギャップを埋める新しいハイブリッドアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 14.667102744113295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time speech-to-speech (S2S) models excel at generating natural, low-latency conversational responses but often lack deep knowledge and semantic understanding. Conversely, cascaded systems combining automatic speech recognition, a text-based Large Language Model (LLM), and text-to-speech synthesis offer superior knowledge representation at the cost of high latency, which disrupts the flow of natural interaction. This paper introduces a novel hybrid architecture that bridges the gap between these two paradigms. Our framework processes user speech through an S2S transformer for immediate responsiveness while concurrently relaying the query to a powerful back-end LLM. The LLM's text-based response is then injected in real time to guide the S2S model's speech generation, effectively infusing its output with rich knowledge without the full latency penalty of a cascaded system. We evaluated our method using a speech-synthesized variant of the MT-Bench benchmark that consists of multi-turn question-answering sessions. The results demonstrate that our system substantially outperforms a baseline S2S model in response correctness, approaching that of a cascaded system, while maintaining a latency on par with the baseline.
- Abstract(参考訳): リアルタイム音声合成(S2S)モデルは、自然で低レイテンシな会話応答を生成するのに優れるが、深い知識と意味理解を欠くことが多い。
逆に、自動音声認識、テキストベースLarge Language Model(LLM)、テキスト音声合成を組み合わせたケースドシステムは、高いレイテンシを犠牲にして優れた知識表現を提供し、自然な相互作用の流れを阻害する。
本稿では,この2つのパラダイムのギャップを埋める新しいハイブリッドアーキテクチャを提案する。
本フレームワークは,S2Sトランスフォーマーを用いてユーザ音声を処理し,クエリを強力なバックエンドLLMに並列に中継する。
LLMのテキストベースの応答はリアルタイムで注入され、S2Sモデルの音声生成を誘導する。
マルチターン質問応答セッションからなるMT-Benchベンチマークの音声合成版を用いて,本手法の評価を行った。
その結果,本システムは応答精度においてベースラインS2Sモデルを大幅に上回り,ベースラインと同等のレイテンシを維持しながらカスケードシステムのモデルに近づいた。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。