論文の概要: DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
- arxiv url: http://arxiv.org/abs/2601.23161v1
- Date: Fri, 30 Jan 2026 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.568511
- Title: DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding
- Title(参考訳): DIFFA-2: 汎用音声理解のための実用的拡散大言語モデル
- Authors: Jiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin,
- Abstract要約: 一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。
DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、4段階のカリキュラムで訓練されている。
MMSU、MMAU、MMARの実験では、DIFFA-2はDIFFAよりも一貫して改善されている。
- 参考スコア(独自算出の注目度): 58.29124051111574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) large audio language models (LALMs) such as Qwen-2.5-Omni have achieved strong performance on audio understanding and interaction, but scaling them remains costly in data and computation, and strictly sequential decoding limits inference efficiency. Diffusion large language models (dLLMs) have recently been shown to make effective use of limited training data, and prior work on DIFFA indicates that replacing an AR backbone with a diffusion counterpart can substantially improve audio understanding under matched settings, albeit at a proof-of-concept scale without large-scale instruction tuning, preference alignment, or practical decoding schemes. We introduce DIFFA-2, a practical diffusion-based LALM for general audio understanding. DIFFA-2 upgrades the speech encoder, employs dual semantic and acoustic adapters, and is trained with a four-stage curriculum that combines semantic and acoustic alignment, large-scale supervised fine-tuning, and variance-reduced preference optimization, using only fully open-source corpora. Experiments on MMSU, MMAU, and MMAR show that DIFFA-2 consistently improves over DIFFA and is competitive to strong AR LALMs under practical training budgets, supporting diffusion-based modeling is a viable backbone for large-scale audio understanding. Our code is available at https://github.com/NKU-HLT/DIFFA.git.
- Abstract(参考訳): Qwen-2.5-Omniのような自己回帰型(AR)大規模オーディオ言語モデル(LALM)は、音声の理解と相互作用において高いパフォーマンスを達成しているが、それらをスケールすることは、データや計算においてコストがかかり、厳密なシーケンシャルデコードによって推論効率を制限している。
拡散大言語モデル(dLLM)は、最近、限られた訓練データを効果的に活用することが示されているが、DIFFAの以前の研究は、ARバックボーンを拡散軸に置き換えることで、大規模な命令チューニング、優先アライメント、実用的なデコードスキームなしで、一致した設定下での音声理解を大幅に改善できることを示している。
一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。
DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、セマンティックとアコースティックアライメントを組み合わせた4段階のカリキュラムで訓練される。
MMSU、MMAU、MMARの実験により、DIFFA-2はDIFFAよりも一貫して改善され、実用的な訓練予算の下で強力なAR LALMと競合し、拡散に基づくモデリングは大規模オーディオ理解のための有効なバックボーンであることが示された。
私たちのコードはhttps://github.com/NKU-HLT/DIFFA.git.comで公開されています。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs [29.817724789807457]
Codec2Vecは、離散音声単位のみに依存する最初の音声表現学習フレームワークである。
このアプローチには、データストレージと送信効率の改善、トレーニングの高速化、データプライバシの向上など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2025-11-20T18:46:15Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。