論文の概要: Fun-Audio-Chat Technical Report
- arxiv url: http://arxiv.org/abs/2512.20156v1
- Date: Tue, 23 Dec 2025 08:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.799835
- Title: Fun-Audio-Chat Technical Report
- Title(参考訳): Fun-Audio-Chat 技術報告
- Authors: Qian Chen, Luyao Cheng, Chong Deng, Xiangang Li, Jiaqing Liu, Chao-Hong Tan, Wen Wang, Junhao Xu, Jieping Ye, Qinglin Zhang, Qiquan Zhang, Jingren Zhou,
- Abstract要約: 音声トークン(25Hz)とテキストトークン(25Hz)の間の時間分解能は、重要な意味情報のミスマッチを緩和し、高い計算コストを発生させる。
Fun-Audio-Chatは、事前訓練されたモデルと広範なポストトレーニングを活用して、強力な音声理解推論と生成を得ながら、テキストLLMの知識を保持する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
- 参考スコア(独自算出の注目度): 72.81719034869137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in joint speech-text models show great potential for seamless voice interactions. However, existing models face critical challenges: temporal resolution mismatch between speech tokens (25Hz) and text tokens (~3Hz) dilutes semantic information, incurs high computational costs, and causes catastrophic forgetting of text LLM knowledge. We introduce Fun-Audio-Chat, a Large Audio Language Model addressing these limitations via two innovations from our previous work DrVoice. First, Dual-Resolution Speech Representations (DRSR): the Shared LLM processes audio at efficient 5Hz (via token grouping), while the Speech Refined Head generates high-quality tokens at 25Hz, balancing efficiency (~50% GPU reduction) and quality. Second, Core-Cocktail Training, a two-stage fine-tuning with intermediate merging that mitigates catastrophic forgetting. We then apply Multi-Task DPO Training to enhance robustness, audio understanding, instruction-following and voice empathy. This multi-stage post-training enables Fun-Audio-Chat to retain text LLM knowledge while gaining powerful audio understanding, reasoning, and generation. Unlike recent LALMs requiring large-scale audio-text pre-training, Fun-Audio-Chat leverages pre-trained models and extensive post-training. Fun-Audio-Chat 8B and MoE 30B-A3B achieve competitive performance on Speech-to-Text and Speech-to-Speech tasks, ranking top among similar-scale models on Spoken QA benchmarks. They also achieve competitive to superior performance on Audio Understanding, Speech Function Calling, Instruction-Following and Voice Empathy. We develop Fun-Audio-Chat-Duplex, a full-duplex variant with strong performance on Spoken QA and full-duplex interactions. We open-source Fun-Audio-Chat-8B with training and inference code, and provide an interactive demo.
- Abstract(参考訳): 共同音声テキストモデルの最近の進歩は、シームレスな音声対話に大きな可能性を秘めている。
しかし、既存のモデルは重要な課題に直面している: 音声トークン(25Hz)とテキストトークン(~3Hz)の時間分解ミスマッチは意味情報を希釈し、高い計算コストを発生させ、テキストLLMの知識を破滅的な忘れてしまう。
我々はFun-Audio-Chatを紹介します。Fun-Audio-Chatは、これまでのDrVoiceの2つのイノベーションを通じて、これらの制限に対処する大規模オーディオ言語モデルです。
第一に、Dual-Resolution Speech Representations (DRSR): Shared LLMは(トークングループ化による)効率的な5Hzで音声を処理する一方、Speech Refined Headは25Hzで高品質なトークンを生成し、効率と品質のバランスをとる。
第二に、Core-Cocktail Trainingは、2段階の微調整と中間のマージが組み合わされ、破滅的な忘れを和らげる。
次に,マルチタスクDPOトレーニングを適用し,ロバストネス,音声理解,指示追従,音声共感を向上させる。
この多段階後訓練により、Fun-Audio-Chatは、強力な音声理解、推論、生成を得ながら、LLMの知識をテキストで保持することができる。
大規模なオーディオテキスト事前学習を必要とする最近のLALMとは異なり、Fun-Audio-Chatは事前訓練されたモデルと広範な後訓練を利用する。
Fun-Audio-Chat 8BとMoE 30B-A3Bは、Spoken QAベンチマークで同様のスケールのモデルの中で上位にランクインした音声テキストタスクと音声音声タスクの競合的なパフォーマンスを実現している。
また、音声理解、音声機能呼び出し、指示追従、音声共感において優れたパフォーマンスを達成する。
本研究では,Fun-Audio-Chat-Duplexを開発した。
トレーニングコードと推論コードを備えたFun-Audio-Chat-8Bをオープンソースとして公開し、インタラクティブなデモを提供します。
関連論文リスト
- Step-Audio 2 Technical Report [120.58375054866815]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。