論文の概要: UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction
- arxiv url: http://arxiv.org/abs/2604.19221v2
- Date: Thu, 30 Apr 2026 07:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.527017
- Title: UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction
- Title(参考訳): UAF: 全二重音声対話のための統一音声フロントエンドLLM
- Authors: Yadong Li, Guoxin Wu, Haiping Hou, Biye Li,
- Abstract要約: 音声アシスタントは人間のような会話システムに向けて人工的な伝播を駆動しています。
音声活動検出(VAD)やターンテイク検出(TD)といったフロントエンドコンポーネントは、音声アシスタントにとって不可欠である。
本報告では, フルグレッシブ音声システムに適した初の統合音声フロントエンド LLM (UAF) を提案する。
- 参考スコア(独自算出の注目度): 7.775050285048427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-duplex speech interaction, as the most natural and intuitive mode of human communication, is driving artificial intelligence toward more human-like conversational systems. Traditional cascaded speech processing pipelines suffer from critical limitations, including accumulated latency, information loss, and error propagation across modules. To address these issues, recent efforts focus on the end-to-end audio large language models (LLMs) like GPT-4o, which primarily unify speech understanding and generation task. However, most of these models are inherently half-duplex, and rely on a suite of separate, task-specific front-end components, such as voice activity detection (VAD) and turn-taking detection (TD). In our development of speech assistant, we observed that optimizing the speech front-end is equally crucial as advancing the back-end unified model for achieving seamless, responsive interactions. To bridge this gap, we propose the first unified audio front-end LLM (UAF) tailored for full-duplex speech systems. Our model reformulates diverse audio front-end tasks into a single auto-regressive sequence prediction problem, including VAD, TD, speaker recognition (SR), automatic speech recognition (ASR) and question answer (QA). It takes streaming fixed-duration audio chunk (e.g., 600 ms) as input, leverages a reference audio prompt to anchor the target speaker at the beginning, and regressively generates discrete tokens encoding both semantic content and system-level state controls (e.g., interruption signals). Experiments demonstrate that our model achieves leading performance across multiple audio front-end tasks and significantly enhances response latency and interruption accuracy in real-world interaction scenarios.
- Abstract(参考訳): 人間のコミュニケーションの最も自然で直感的なモードであるフル二重音声対話は、人工知能を人間のような会話システムへと駆り立てている。
従来のカスケードされた音声処理パイプラインは、モジュール間の遅延の蓄積、情報損失、エラーの伝搬など、重大な制限に悩まされている。
これらの問題に対処するために、近年の取り組みは、主に音声理解と生成タスクを統合するGPT-4oのような、エンドツーエンドの音声大言語モデル(LLM)に焦点を当てている。
しかしながら、これらのモデルの多くは本質的に半二重であり、音声活動検出(VAD)やターンテイク検出(TD)といったタスク固有のフロントエンドコンポーネント群に依存している。
音声アシスタントの開発において、音声フロントエンドの最適化は、シームレスでレスポンシブなインタラクションを実現するために、バックエンド統一モデルを前進させるのと同等に重要であることを観察した。
このギャップを埋めるために,本研究では,全二重音声システムに適した初の統合音声フロントエンドLLM(UAF)を提案する。
本稿では,VAD,TD,話者認識(SR),自動音声認識(ASR),質問応答(QA)など,多様な音声フロントエンドタスクを1つの自動回帰シーケンス予測問題に再構成する。
ストリーミング固定順オーディオチャンク(例えば600ms)を入力とし、参照オーディオプロンプトを利用してターゲット話者をアンカーし、セマンティックコンテンツとシステムレベルの制御(例えば割り込み信号)の両方をエンコードする離散トークンを逐次生成する。
実験により,本モデルは複数の音声フロントエンドタスクにおける先行性能を実現し,実世界の対話シナリオにおける応答遅延と割り込み精度を大幅に向上することが示された。
関連論文リスト
- Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。