論文の概要: Audio Interaction Model
- arxiv url: http://arxiv.org/abs/2606.05121v1
- Date: Wed, 03 Jun 2026 17:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.926518
- Title: Audio Interaction Model
- Title(参考訳): 音声対話モデル
- Authors: Zhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao,
- Abstract要約: 今日のLALM(Large Audio Language Models)はオフラインであり、ストリーミングオーディオモデルはASRや音声チャットのような単一のタスクのみを処理する。
それは、常時オンの知覚・認知応答ループを通じて、音、環境、指示をリアルタイムで聞き、リアルタイムで反応するモデルである。
我々は,この仕組みをオーディオインタラクションモデルとして定式化し,オフラインタスクの実行を継続する統合ストリーミングモデルであるAudio-Interactionで実現した。
- 参考スコア(独自算出の注目度): 102.4354125819644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and streaming audio models each handle only a single task such as streaming ASR or voice chatting. It is time to unify them into one online LALM: a model that, through an always-on perceive-decide-respond loop, listens to sound, environment, and instructions in real time and reacts on the fly. We formalize this regime as the Audio Interaction Model, and realize it with Audio-Interaction, a unified streaming model that retains offline task execution while adding online general audio instruction following, from dialogue to full voice chatting, deciding when to respond from the semantics of the stream. To enable this, we propose SoundFlow, a framework that instantiates the perceive-decide-respond loop end to end, from data to training to deployment, through streaming-native data construction, comprehension-aware training, and asynchronous low-latency inference for stable real-time interaction. We further construct StreamAudio-2M, a 2.6M-item streaming corpus spanning 7 fundamental abilities and 28 sub-tasks, and Proactive-Sound-Bench for evaluating proactive audio intervention. Across 8 benchmarks, Audio-Interaction preserves competitive performance on mainstream audio tasks while unlocking capabilities inaccessible to offline LALMs, including real-time ASR, streaming audio instruction following, and proactive help.
- Abstract(参考訳): オーディオは本質的にインタラクティブなモダリティであるが、今日のLALM(Large Audio Language Models)はオフラインであり、ストリーミングオーディオモデルはASRや音声チャットのような単一のタスクのみを処理する。
常時オンの知覚・認知応答ループを通じて、音、環境、指示をリアルタイムで聞き、リアルタイムで反応するモデルである。
音声対話モデルとしてこの仕組みを定式化し,オフラインタスクの実行を継続する統合ストリーミングモデルであるAudio-Interactionで実現した。
これを実現するために,データからトレーニング,デプロイメント,ストリーミングネイティブなデータ構築,理解型トレーニング,非同期低レイテンシ推論によるリアルタイムインタラクションの安定化などを通じて,知覚とデシド対応のループ終端をインスタンス化するフレームワークSoundFlowを提案する。
さらに、7つの基本能力と28のサブタスクにまたがる2.6MのストリーミングコーパスStreamAudio-2Mと、プロアクティブオーディオ介入を評価するためのProactive-Sound-Benchを構築した。
8つのベンチマークで、Audio-Interactionは主流のオーディオタスクの競合性能を保ち、オフラインのLALMにはアクセスできない。
関連論文リスト
- EchoAvatar: Real-time Generative Avatar Animation from Audio Streams [31.328378976492775]
本稿では,低レイテンシでストリーミング音声と音楽から連続的でコヒーレントなフルボディモーションを生成するための新しいフレームワークを提案する。
この制御性とストリーム音声駆動合成を組み合わせることで,音声エージェントを対話型ヒューマノイドアバターに変換するためのプラグアンドプレイソリューションとして機能する。
論文 参考訳(メタデータ) (2026-05-27T10:18:16Z) - OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants [43.2907783462394]
音声-視覚的ストリームに対するネイティブ推論によって評価されたリアルタイム全言語モデルのストリーミングベンチマーク。
本研究では,対話型品質タイムラインF1,割り込み診断スイート,368の1QnAスロットを用いて,応答の正しさ,タイミング,不正出力の割り込み,コンテキスト継続性を評価した。
論文 参考訳(メタデータ) (2026-05-26T02:49:47Z) - UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction [7.775050285048427]
音声アシスタントは人間のような会話システムに向けて人工的な伝播を駆動しています。
音声活動検出(VAD)やターンテイク検出(TD)といったフロントエンドコンポーネントは、音声アシスタントにとって不可欠である。
本報告では, フルグレッシブ音声システムに適した初の統合音声フロントエンド LLM (UAF) を提案する。
論文 参考訳(メタデータ) (2026-04-21T08:24:55Z) - Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。