論文の概要: Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2507.08128v2
- Date: Mon, 28 Jul 2025 22:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.281416
- Title: Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models
- Title(参考訳): Audio Flamingo 3: 完全にオープンな大規模オーディオ言語モデルによるオーディオインテリジェンスの向上
- Authors: Arushi Goel, Sreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro,
- Abstract要約: 本稿では,音声・音声・音楽間の推論・理解を推し進める,完全にオープンなSOTA(Audio Flamingo 3/Audio Flamingo 3/Audio Flamingo 3/Audio Flamingo 3)について述べる。
AF3 は AF-Whisper という,音声,音声,音楽の3つのモードにまたがる共同表現学習の新たな戦略を用いて訓練された統一オーディオエンコーダを導入している。
20以上の(長い)オーディオ理解と推論ベンチマークで新たなSOTA結果を実現し、より大規模なデータセットでトレーニングされたオープンソースモデルとクローズドソースモデルの両方を上回っている。
- 参考スコア(独自算出の注目度): 73.06287813212936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Audio Flamingo 3 (AF3), a fully open state-of-the-art (SOTA) large audio-language model that advances reasoning and understanding across speech, sound, and music. AF3 introduces: (i) AF-Whisper, a unified audio encoder trained using a novel strategy for joint representation learning across all 3 modalities of speech, sound, and music; (ii) flexible, on-demand thinking, allowing the model to do chain-of-thought-type reasoning before answering; (iii) multi-turn, multi-audio chat; (iv) long audio understanding and reasoning (including speech) up to 10 minutes; and (v) voice-to-voice interaction. To enable these capabilities, we propose several large-scale training datasets curated using novel strategies, including AudioSkills-XL, LongAudio-XL, AF-Think, and AF-Chat, and train AF3 with a novel five-stage curriculum-based training strategy. Trained on only open-source audio data, AF3 achieves new SOTA results on over 20+ (long) audio understanding and reasoning benchmarks, surpassing both open-weight and closed-source models trained on much larger datasets.
- Abstract(参考訳): 本稿では,音声・音声・音楽間の推論・理解を推し進める,完全にオープンなSOTA(Audio Flamingo 3)の大規模音声言語モデルについて紹介する。
AF3の紹介
(i)AF-Whisperは、音声、音声、音楽の3つのモダリティにまたがる共同表現学習のための新しい戦略を用いて訓練された統合音声エンコーダである。
二 フレキシブルでオンデマンドな思考で、応答する前に、モデルが連鎖型推論をすることができること。
(三)マルチターン、マルチオーディオチャット
(4)長大な音声理解・推論(音声を含む)最大10分
(v)ボイス・ツー・ボイス・インタラクション。
これらの機能を実現するために,AudioSkills-XL,LongAudio-XL,AF-Think,AF-Chatといった新しい戦略を用いた大規模トレーニングデータセットを提案し,新しい5段階のカリキュラムベースのトレーニング戦略でAF3をトレーニングする。
オープンソースのオーディオデータのみに基づいてトレーニングされたAF3は、20以上の(長い)オーディオ理解と推論ベンチマークで新たなSOTA結果を達成し、はるかに大きなデータセットでトレーニングされたオープンソースモデルとクローズドソースモデルの両方を上回っている。
関連論文リスト
- Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。