論文の概要: IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2606.06559v1
- Date: Thu, 04 Jun 2026 12:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.372653
- Title: IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems
- Title(参考訳): IRAF:完全二重音声対話システムのための干渉抵抗型適応核融合
- Authors: Tao Zhong, Jiajun Deng, Nikita Kuzmin, Yinke Zhu, Tianxiang Cao, Tristan Tsoi, Zhili Tan, Simon Lui, Xunying Liu,
- Abstract要約: ユーザーのマイクに漏れるスピーカーの干渉は ユーザーストリームを劣化させる
IRAFは、ユーザのマイクフレームへのコントリビューションをフレーム単位でエンコードする。
MS-MARCOKS2S-200は、干渉条件下での応答品質と完全な相互作用において一貫した利得を示した。
- 参考スコア(独自算出の注目度): 33.23101040392755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex spoken dialogue models allow voice agents to listen and speak concurrently, enabling natural interaction with real-time overlap. However, end-to-end dual-channel models that jointly encode user and agent streams may degrade in realistic acoustic environments: interfering speakers leaking into the user microphone can be encoded as part of the user query, corrupting the LLM's conditioning and causing unstable turn-taking and reduced response quality. We propose Interference-Resilient Adaptive Fusion (IRAF), a lightweight, streaming-compatible module that modulates the contribution of user audio to the LLM frame by frame. IRAF predicts a scalar reliability gate from target-speaker and user audio embeddings and rescales user representations before fusion with agent embeddings. Experiments on MS-MARCO and InstructS2S-200K show consistent gains in response quality and full-duplex interaction under interfering-speaker conditions.
- Abstract(参考訳): 全二重音声対話モデルでは、音声エージェントが同時に聞き、話すことができ、リアルタイムの重複と自然な相互作用を可能にする。
しかし、ユーザとエージェントストリームを共同で符号化するエンドツーエンドのデュアルチャネルモデルは、現実的な音響環境において劣化する可能性がある。
本稿では,LLMフレームへのユーザ音声のコントリビューションをフレーム単位で変調する軽量なストリーミング互換モジュールであるInterference-Resilient Adaptive Fusion (IRAF)を提案する。
IRAFは、ターゲットスピーカーとユーザのオーディオ埋め込みからスカラー信頼性ゲートを予測し、エージェント埋め込みと融合する前にユーザ表現を再スケールする。
MS-MARCOとInstructS2S-200Kの実験では、干渉スピーカ条件下での応答品質と全二重相互作用が一貫した向上を示した。
関連論文リスト
- Synchronization and Turn-Taking in Full-Duplex Speech Dialogue Models [3.5946669116828134]
完全な音声対話モデルは、ターンベースシステムよりも人間の会話に近い声を同時に話すことができる。
本研究では,人間のコミュニケーションにおいて,ニューラルカップリングを用いた内部相互作用を協調するモデルを提案する。
雑音のない条件下では強い表現同期が得られ、ラグはゼロに近づき、ノイズは劣化する。
論文 参考訳(メタデータ) (2026-05-19T18:11:03Z) - How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue [36.88464167279495]
音声対話システムは、ユーザ入力の到着生成をサポートする必要がある。
チャネル融合はより強力な基底的意味を持ち、一貫してより良い質問性能をもたらす。
クロスアテンションルーティングは質問応答では不十分だが、LLM生成コンテキストをよりよく保存する。
論文 参考訳(メタデータ) (2026-05-11T08:46:47Z) - Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems [8.43958948419218]
音声対話システムから制御を分離するフレキシブルフルプレイ制御モジュールを開発した。
会話における人間の情報フィルタリング機構に触発されて、明示的なアイドル状態を導入する。
偽の割り込み率を24.9%削減し、統合されたフルプレイ対話システムに比べて応答精度を7.6%向上させる。
論文 参考訳(メタデータ) (2025-02-19T06:51:34Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。