論文の概要: Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data
- arxiv url: http://arxiv.org/abs/2509.07526v1
- Date: Tue, 09 Sep 2025 09:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.24412
- Title: Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data
- Title(参考訳): 公開データを用いたデータ効率の良い単段階学習による競合型音声言語モデル
- Authors: Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid,
- Abstract要約: Falcon3-Audio-7Bは、MMAUベンチマークで報告されたオープンウェイトモデルの中で最高のパフォーマンスである。
我々の最小の1Bモデルは、2Bから13Bのパラメータを含むより大きなオープンモデルと競合し続けている。
- 参考スコア(独自算出の注目度): 4.736913024290765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, matching R1-AQA, while distinguishing itself through superior data and parameter efficiency, single-stage training, and transparency. Notably, our smallest 1B model remains competitive with larger open models ranging from 2B to 13B parameters. Through extensive ablations, we find that common complexities -- such as curriculum learning, multiple audio encoders, and intricate cross-attention connectors -- are not required for strong performance, even compared to models trained on over 500K hours of data.
- Abstract(参考訳): 大規模言語モデル(LLM)はNLPを変革したが、オーディオとの連携は、人間のコミュニケーションの中心にあるにも関わらず、まだ未調査のままである。
本稿では,命令調整LLMとWhisperエンコーダをベースとしたALM(Audio-Language Models)のファミリーであるFalcon3-Audioを紹介する。
Falcon3-Audio-7Bは、MMAUベンチマークのオープンウェイトモデルの中で、非常に少ない量の公開オーディオデータを使用し、64.14のスコアで、R1-AQAと一致し、優れたデータとパラメータ効率、シングルステージトレーニング、透明性で差別化されている。
特に、我々の最小の1Bモデルは、2Bパラメーターから13Bパラメーターまでのより大きなオープンモデルと競合し続けている。
広範な改善を通じて、カリキュラム学習や複数のオーディオエンコーダ、複雑なクロスアテンションコネクタといった一般的な複雑さは、500K時間以上のデータでトレーニングされたモデルと比較しても、強力なパフォーマンスには必要とされないことが分かりました。
関連論文リスト
- DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [95.45204813682885]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Exploring the limits of decoder-only models trained on public speech
recognition corpora [36.446905777292066]
Decoder-Only Transformer for ASR (DOTA) モデルは、ほぼ全ての英語のASRベンチマークおよび15のテストセット中7つのWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総じて上回っている。
論文 参考訳(メタデータ) (2024-01-31T23:29:42Z) - tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models [2.9619090219410515]
本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを軽減する方法について検討する。
第一原理から一元蒸留損失を導出し、共有多モードラテント空間の次元性をいかに小さくするかを探求する。
TinyCLAPは、ゼロショット分類性能において、オリジナルのMicrosoft CLAPパラメータの6%しか使用していない(5%未満)。
論文 参考訳(メタデータ) (2023-11-24T14:45:53Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。