論文の概要: DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2507.02768v1
- Date: Thu, 03 Jul 2025 16:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.591152
- Title: DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment
- Title(参考訳): DeSTA2.5-Audio:自己生成型クロスモーダルアライメントを用いた汎用大規模オーディオモデルを目指して
- Authors: Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Sung-Feng Huang, Chih-Kai Yang, Chee-En Yu, Chun-Wei Chen, Wei-Chih Chen, Chien-yu Huang, Yi-Cheng Lin, Yu-Xiang Lin, Chi-An Fu, Chun-Yi Kuan, Wenze Ren, Xuanjun Chen, Wei-Ping Huang, En-Pei Hu, Tzu-Quan Lin, Yuan-Kuei Wu, Kuan-Po Huang, Hsiao-Ying Huang, Huang-Cheng Chou, Kai-Wei Chang, Cheng-Han Chiang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee,
- Abstract要約: DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 94.0709779805955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM) designed for robust auditory perception and instruction-following, without requiring task-specific audio instruction-tuning. Recent LALMs typically augment Large Language Models (LLMs) with auditory capabilities by training on large-scale, manually curated or LLM-synthesized audio-instruction datasets. However, these approaches have often suffered from the catastrophic forgetting of the LLM's original language abilities. To address this, we revisit the data construction pipeline and propose DeSTA, a self-generated cross-modal alignment strategy in which the backbone LLM generates its own training targets. This approach preserves the LLM's native language proficiency while establishing effective audio-text alignment, thereby enabling zero-shot generalization without task-specific tuning. Using DeSTA, we construct DeSTA-AQA5M, a large-scale, task-agnostic dataset containing 5 million training samples derived from 7,000 hours of audio spanning 50 diverse datasets, including speech, environmental sounds, and music. DeSTA2.5-Audio achieves state-of-the-art or competitive performance across a wide range of audio-language benchmarks, including Dynamic-SUPERB, MMAU, SAKURA, Speech-IFEval, and VoiceBench. Comprehensive comparative studies demonstrate that our self-generated strategy outperforms widely adopted data construction and training strategies in both auditory perception and instruction-following capabilities. Our findings underscore the importance of carefully designed data construction in LALM development and offer practical insights for building robust, general-purpose LALMs.
- Abstract(参考訳): DeSTA2.5-Audioは、タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従を目的とした汎用大規模音声言語モデル(LALM)である。
最近のLALMは、大規模、手動でキュレートされた、あるいはLLM合成オーディオインストラクションデータセットをトレーニングすることで、聴覚能力を持つ大規模言語モデル(LLM)を拡張している。
しかしながら、これらのアプローチは、LLMの本来の言語能力の破滅的な忘れ込みにしばしば悩まされている。
そこで本研究では,データ構築パイプラインを再検討し,バックボーンLLMが独自のトレーニングターゲットを生成する自己生成型クロスモーダルアライメント戦略であるDeSTAを提案する。
このアプローチは,LLMのネイティブ言語習熟度を維持しつつ,効果的な音声テキストアライメントを確立することにより,タスク固有のチューニングを伴わずにゼロショットの一般化を可能にする。
DeSTAを用いて、音声、環境音、音楽を含む50の多様なデータセットにまたがる7000時間のオーディオから得られた500万のトレーニングサンプルを含む、大規模でタスクに依存しないデータセットであるDeSTA-AQA5Mを構築した。
DeSTA2.5-Audioは、Dynamic-SUPERB、MMAU、SAkura、Speech-IFEval、VoiceBenchなど、幅広いオーディオ言語ベンチマークにおいて、最先端または競合的なパフォーマンスを実現している。
総合的な比較研究により、我々の自己生成戦略は、聴覚知覚と指示追従能力の両方において、広く採用されているデータ構築および訓練戦略より優れていることが示された。
本研究は, LALM開発におけるデータ構築の重要性を浮き彫りにして, 堅牢で汎用的なLALM構築のための実践的洞察を提供するものである。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models [18.11667976818302]
IFEval-Audioには、6つの異なる次元にわたる280のオーディオインストラクション回答トリプルが含まれている。
各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。
我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
論文 参考訳(メタデータ) (2025-05-22T15:15:29Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。