論文の概要: Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
- arxiv url: http://arxiv.org/abs/2604.10905v1
- Date: Mon, 13 Apr 2026 02:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.275404
- Title: Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
- Title(参考訳): 次のAudio Flamingo:音声、音、音楽のための次世代オープンオーディオ言語モデル
- Authors: Sreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping,
- Abstract要約: AF-NextはAudio Flamingoシリーズの次世代かつ最も有能な大型オーディオ言語モデルである。
言語、環境音、音楽に対する理解と推論を促進するように設計されている。
AF-Nextは、プレトレーニング、ミッドトレーニング、ポストトレーニングの段階にまたがるカリキュラムベースの戦略を使って訓練されている。
すべてのデータ、コード、メソッドに加えて、AF-Next-Instruct、AF-Next-Think、AF-Next-Captionerを含む3種類のAF-Nextをオープンソースにしています。
- 参考スコア(独自算出の注目度): 112.20887496511165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.
- Abstract(参考訳): 我々はAudio Flamingo Next(AF-Next)について紹介する。Audio Flamingoシリーズの次世代かつ最も有能な大規模オーディオ言語モデルであり、音声、環境音、音楽に対する理解と推論の促進を目的としている。
AF-NextがAudio Flamingo 3と比較して紹介する。
(i)多様な音声理解タスクにおける精度を大幅に向上する基礎的音声言語モデル。
(II)既存の学術ベンチマークを超えて大規模音声理解・推論データを構築するためのスケーラブルな戦略
(iii)30分以内の長大な音声入力のサポート
(4)テンポラル・オーディオ・チェーン・オブ・ソート(Temporal Audio Chain-of-Thought)は、ロングオーディオにおけるタイムスタンプの中間的推論ステップを明確に根拠とし、微細な時間的アライメントと解釈性の向上を可能にする新しい推論パラダイムである。
これらの機能を実現するために,まずAudio Flamingo 3の系統的分析を行い,音声理解と推論における重要なギャップを識別する。
そして、これらの制限に対処するために100万時間を超える新しい大規模データセットをキュレートしてスケールし、既存のAudioSkills-XL、LongAudio-XL、AF-Think、AF-Chatデータセットを拡張します。
AF-Nextは、プレトレーニング、ミッドトレーニング、ポストトレーニングの段階にまたがるカリキュラムベースの戦略を使って訓練されている。
20の音声理解と推論のベンチマークにおいて、挑戦的なロングオーディオタスクを含む広範な実験は、AF-Nextが同様の大きさのオープンモデルを大きなマージンで上回り、さらに大きなオープンウェイトやクローズドモデルと競争し、時には上回っていることを示している。
ベンチマークのパフォーマンス以外にも、AF-Nextは強力な実世界のユーティリティを示し、目に見えないタスクにうまく移行し、その堅牢性と一般化能力を強調している。
すべてのデータ、コード、メソッドに加えて、AF-Next-Instruct、AF-Next-Think、AF-Next-Captionerを含む3種類のAF-Nextをオープンソースにしています。
関連論文リスト
- Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models [73.06287813212936]
本稿では,音声・音声・音楽間の推論・理解を推し進める,完全にオープンなSOTA(Audio Flamingo 3/Audio Flamingo 3/Audio Flamingo 3/Audio Flamingo 3)について述べる。
AF3 は AF-Whisper という,音声,音声,音楽の3つのモードにまたがる共同表現学習の新たな戦略を用いて訓練された統一オーディオエンコーダを導入している。
20以上の(長い)オーディオ理解と推論ベンチマークで新たなSOTA結果を実現し、より大規模なデータセットでトレーニングされたオープンソースモデルとクローズドソースモデルの両方を上回っている。
論文 参考訳(メタデータ) (2025-07-10T19:40:21Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。