Fugu-MT 論文翻訳(概要): RelayS2S: A Dual-Path Speculative Generation for Real-Time Dialogue

論文の概要: RelayS2S: A Dual-Path Speculative Generation for Real-Time Dialogue

arxiv url: http://arxiv.org/abs/2603.23346v1
Date: Tue, 24 Mar 2026 15:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.567872
Title: RelayS2S: A Dual-Path Speculative Generation for Real-Time Dialogue
Title（参考訳）: RelayS2S:リアルタイム対話のためのデュアルパス投機生成
Authors: Long Mai,
Abstract要約: RelayS2Sは、ターン検出時に並列に2つのパスを実行するハイブリッドアーキテクチャである。ライトウェイト学習検証器は、ハンドオフをゲートし、適切な場合にはプレフィックスをコミットし、遅路のみに優雅に後退する。
参考スコア（独自算出の注目度）: 11.153295574224634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-time spoken dialogue systems face a fundamental tension between latency and response quality. End-to-end speech-to-speech (S2S) models respond immediately and naturally handle turn-taking, backchanneling, and interruption, but produce semantically weaker outputs. Cascaded pipelines (ASR -> LLM) deliver stronger responses at the cost of latency that grows with model size. We present RelayS2S, a hybrid architecture that runs two paths in parallel upon turn detection. The fast path -- a duplex S2S model -- speculatively drafts a short response prefix that is streamed immediately to TTS for low-latency audio onset, while continuing to monitor live audio events. The slow path -- a cascaded ASR -> LLM pipeline -- generates a higher-quality continuation conditioned on the committed prefix, producing a seamless utterance. A lightweight learned verifier gates the handoff, committing the prefix when appropriate or falling back gracefully to the slow path alone. Experiments show that RelayS2S achieves P90 onset latency comparable to the S2S model while retaining 99% cascaded response quality in average score, with benefits growing as the slow-path model scales. Because the prefix handoff requires no architectural modification to either component, RelayS2S serves as a lightweight, drop-in addition to existing cascaded pipelines. Our code and data are publicly available at: https://github.com/mailong25/relays2s
Abstract（参考訳）: リアルタイム音声対話システムは、レイテンシと応答品質の根本的な緊張に直面している。エンドツーエンドの音声音声合成(S2S)モデルはすぐに応答し、ターンテイキング、バックチャネル、割り込みを自然に処理するが、意味的に弱い出力を生成する。カスケードパイプライン(ASR -> LLM)は、モデルのサイズに応じて増加するレイテンシのコストで、より強力な応答を提供する。ターン検出時に2つの経路を並列に実行するハイブリッドアーキテクチャであるRelayS2Sを提案する。高速パス -- 二重S2Sモデル -- は、短い応答プレフィックスを投機的にドラフトし、低遅延オーディオのオンセットのために即座にTSにストリームされ、ライブオーディオイベントを監視し続ける。スローパス - カスケードされたASR -> LLMパイプライン - はコミットプレフィックスに条件付き高品質な継続を生成し、シームレスな発話を生成する。ライトウェイト学習検証器は、ハンドオフをゲートし、適切な場合にはプレフィックスをコミットし、遅路のみに優雅に後退する。実験により、RelayS2Sは、S2Sモデルに匹敵するP90オンセットレイテンシを実現し、平均スコアで99%の応答品質を維持し、スローパスモデルスケールで利益が増加することが示された。プレフィックスのハンドオフはどちらのコンポーネントにもアーキテクチャの変更を必要としないため、RelayS2Sは既存のカスケードパイプラインに加えて軽量でドロップインで機能する。私たちのコードとデータは、https://github.com/mailong25/relays2sで公開されています。

関連論文リスト

LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning [27.13598270494417]
LTS-VoiceAgent は Listen-Think-Speak フレームワークである。意味のある接頭辞を検出するDynamic Semantic Triggerと、背景のThinkerと前景のスピーカーをコーディネートするDual-Role Stream Orchestratorを備えている。
論文参考訳（メタデータ） (2026-01-26T15:42:35Z)
Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems [82.70507055599093]
本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
論文参考訳（メタデータ） (2025-10-02T14:33:05Z)
Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-02T14:18:20Z)
KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI [14.667102744113295]
リアルタイム音声合成(S2S)モデルは低レイテンシな会話応答を生成するのに優れているが、深い知識と意味理解が欠けていることが多い。自動音声認識、テキストベース大規模言語モデル(LLM)、テキスト音声合成を組み合わせたCケースドシステムは、高いレイテンシを犠牲にして優れた知識表現を提供する。本稿では,この2つのパラダイムのギャップを埋める新しいハイブリッドアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-09-26T00:46:34Z)
Whisfusion: Parallel ASR Decoding via a Diffusion Transformer [7.327454599174306]
Whisfusionは、トレーニング済みのWhisperエンコーダをテキスト拡散デコーダで融合するフレームワークである。パラメータ効率細調整(PEFT)によって訓練された軽量なクロスアテンションアダプタは、2つのモードをブリッジする。 LibriSpeech (960h)のみに微調整されたWhisfusionは、Whisper-tinyよりも低いWERを実現し、短いオーディオに匹敵するレイテンシを提供する。
論文参考訳（メタデータ） (2025-08-09T17:20:54Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文参考訳（メタデータ） (2024-11-29T05:55:20Z)
Turbocharge Speech Understanding with Pilot Inference [0.9699101045941684]
本稿では,資源制約のあるエッジデバイス上での現代音声理解の促進を図る。デバイス上での実行をスピードアップする、デバイス容量を超える入力をオフロードする、というハイブリッドなアプローチが必要です。プロトタイプはPASUと呼ばれ、Armプラットフォーム上で6～8コアでテストされており、SOTAの精度が得られます。
論文参考訳（メタデータ） (2023-11-22T17:14:18Z)
Delay-penalized transducer for low-latency streaming ASR [26.39851372961386]
本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのに等価であると考えられる。
論文参考訳（メタデータ） (2022-10-31T07:03:50Z)
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2022-07-08T10:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。