論文の概要: Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2503.02318v1
- Date: Tue, 04 Mar 2025 06:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:39.193359
- Title: Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models
- Title(参考訳): 音響共振器:大規模音声モデルにおける共振性能の向上
- Authors: Zhifei Xie, Mingbao Lin, Zihang Liu, Pengcheng Wu, Shuicheng Yan, Chunyan Miao,
- Abstract要約: 本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
- 参考スコア(独自算出の注目度): 95.45204813682885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal reasoning have largely overlooked the audio modality. We introduce Audio-Reasoner, a large-scale audio language model for deep reasoning in audio tasks. We meticulously curated a large-scale and diverse multi-task audio dataset with simple annotations. Then, we leverage closed-source models to conduct secondary labeling, QA generation, along with structured COT process. These datasets together form a high-quality reasoning dataset with 1.2 million reasoning-rich samples, which we name CoTA. Following inference scaling principles, we train Audio-Reasoner on CoTA, enabling it to achieve great logical capabilities in audio reasoning. Experiments show state-of-the-art performance across key benchmarks, including MMAU-mini (+25.42%), AIR-Bench chat/foundation(+14.57%/+10.13%), and MELD (+8.01%). Our findings stress the core of structured CoT training in advancing audio reasoning.
- Abstract(参考訳): マルチモーダル推論の最近の進歩は、オーディオのモダリティを大きく見落としている。
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
簡単なアノテーションで大規模で多様なマルチタスク音声データセットを慎重にキュレートした。
そして、我々は、構造化COTプロセスとともに、クローズドソースモデルを利用してセカンダリラベリング、QA生成を行う。
これらのデータセットは、120万の推論豊富なサンプルを持つ高品質な推論データセットを形成します。
推論スケーリングの原則に従い、私たちはCoTA上でAudio-Reasonerをトレーニングします。
実験では、MMAU-mini (+25.42%)、AIR-Bench chat/foundation (+14.57%/+10.13%)、MELD (+8.01%)など、主要なベンチマークにおける最先端のパフォーマンスが示されている。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
関連論文リスト
- Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - Mellow: a small audio language model for reasoning [31.309253699062307]
Mellowは、推論用に特別に設計された小さなAudio-Language Modelだ。
ReasonAQAは、モデルにおけるオーディオグラウンド推論を強化するために設計されたデータセットである。
私たちのトレーニングデータセット、発見、ベースラインは、推論可能な小さなALMを開発するための道を開いた。
論文 参考訳(メタデータ) (2025-03-11T15:29:00Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文 参考訳(メタデータ) (2025-02-10T16:51:11Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities [43.23351906406144]
高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM)
GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
論文 参考訳(メタデータ) (2024-06-17T17:31:01Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。