Fugu-MT 論文翻訳(概要): DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

論文の概要: DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

arxiv url: http://arxiv.org/abs/2603.08216v1
Date: Mon, 09 Mar 2026 10:48:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.80659
Title: DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining
Title（参考訳）: DualTurn:デュアルチャネル生成音声プレトレーニングからターンタイキングを学ぶ
Authors: Shangeth Rajaa,
Abstract要約: 音声合成モデルはターンテイキングを自然に扱うが、ツールコールや複雑な推論を限定的にサポートする。本稿では、このギャップを2チャンネルの会話音声における生成前訓練によって狭めるDualTurnを提案する。このモデルは、両方の話者の将来の音声を自動回帰的に生成し、ラベルなしで暗黙的に会話のダイナミクスを学習し、解釈可能なターンテイク信号を予測するように微調整される。
参考スコア（独自算出の注目度）: 3.3842793760651557
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech-to-speech models handle turn-taking naturally but offer limited support for tool-calling or complex reasoning, while production ASR-LLM-TTS voice pipelines offer these capabilities but rely on silence timeouts, which lead to unnatural turn-taking. We present DualTurn, which narrows this gap through generative pretraining on dual-channel conversational audio. The model generates both speakers' future audio autoregressively, implicitly learning conversational dynamics without any labels, and is then fine-tuned to predict interpretable turn-taking signals that map directly to agent actions. DualTurn monitors both channels continuously, anticipating turn boundaries and producing five agent actions. On standard benchmarks, DualTurn (0.5B) outperforms both VAP on agent action prediction (wF1 0.633 vs. 0.389) and a 3.1B audio-text model on word-level turn prediction (AUC 0.930 vs. 0.880), while anticipating turn boundaries earlier with fewer interruptions.
Abstract（参考訳）: 音声合成モデルはターンテイクを自然に処理するが、ツールコールや複雑な推論を限定的にサポートする一方で、プロダクションのASR-LLM-TTS音声パイプラインはこれらの機能を提供するが、サイレントタイムアウトに依存しているため、不自然なターンテイクにつながる。本稿では、このギャップを2チャンネルの会話音声における生成前訓練によって狭めるDualTurnを提案する。このモデルは、両方の話者の将来の音声を自動回帰的に生成し、ラベルなしで暗黙的に会話力学を学習し、エージェントアクションに直接マップする解釈可能なターンテイク信号を予測するように微調整される。 DualTurnは両方のチャネルを継続的に監視し、ターン境界を予測し、5つのエージェントアクションを生成する。標準ベンチマークでは、DualTurn (0.5B) はエージェントアクション予測(wF1 0.633 vs. 0.389)とワードレベルのターン予測(AUC 0.930 vs. 0.880)の3.1Bオーディオテキストモデルの両方でVAPを上回り、割り込みの少ないターン境界を予想している。

関連論文リスト

Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。 47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文参考訳（メタデータ） (2025-12-16T19:26:44Z)
Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文参考訳（メタデータ） (2025-10-02T10:28:11Z)
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations [15.886402427095515]
対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
論文参考訳（メタデータ） (2025-07-01T06:38:14Z)
DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文参考訳（メタデータ） (2025-06-11T02:57:22Z)
NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-06-01T12:01:40Z)
Duplex Diffusion Models Improve Speech-to-Speech Translation [1.4649095013539173]
音声から音声への翻訳は、自然に2つの方向を持つシーケンスからシーケンスまでの学習タスクである。両面に拡散確率モデルを適用した2相拡散モデルを提案する。我々のモデルは、入力と出力の端を反転させることで、可逆的な音声翻訳を可能にする。
論文参考訳（メタデータ） (2023-05-22T01:39:40Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。 RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文参考訳（メタデータ） (2020-11-23T19:10:40Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。