論文の概要: AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs
- arxiv url: http://arxiv.org/abs/2510.07293v1
- Date: Wed, 08 Oct 2025 17:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.678061
- Title: AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs
- Title(参考訳): AudioMarathon:LLMにおける長期音声理解と効率の総合ベンチマーク
- Authors: Peize He, Zichen Wen, Yubo Wang, Yuxuan Wang, Xiaoqian Liu, Jiajie Huang, Zehui Lei, Zhuangcheng Gu, Xiangqi Jin, Jiabing Yang, Kai Li, Zhifei Liu, Weijia Li, Cunxiang Wang, Conghui He, Linfeng Zhang,
- Abstract要約: AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 53.248502396225724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Processing long-form audio is a major challenge for Large Audio Language models (LALMs). These models struggle with the quadratic cost of attention ($O(N^2)$) and with modeling long-range temporal dependencies. Existing audio benchmarks are built mostly from short clips and do not evaluate models in realistic long context settings. To address this gap, we introduce AudioMarathon, a benchmark designed to evaluate both understanding and inference efficiency on long-form audio. AudioMarathon provides a diverse set of tasks built upon three pillars: long-context audio inputs with durations ranging from 90.0 to 300.0 seconds, which correspond to encoded sequences of 2,250 to 7,500 audio tokens, respectively, full domain coverage across speech, sound, and music, and complex reasoning that requires multi-hop inference. We evaluate state-of-the-art LALMs and observe clear performance drops as audio length grows. We also study acceleration techniques and analyze the trade-offs of token pruning and KV cache eviction. The results show large gaps across current LALMs and highlight the need for better temporal reasoning and memory-efficient architectures. We believe AudioMarathon will drive the audio and multimodal research community to develop more advanced audio understanding models capable of solving complex audio tasks.
- Abstract(参考訳): ロングフォームオーディオを処理することは、Large Audio Language Model (LALM) にとって大きな課題である。
これらのモデルは、注意の二次的コスト(O(N^2)$)と、長距離時間依存性のモデリングに苦労する。
既存のオーディオベンチマークは、主にショートクリップで構築されており、現実的なロングコンテキスト設定ではモデルを評価することができない。
このギャップに対処するために,長文音声の理解と推論の効率を評価するベンチマークであるAudioMarathonを導入する。
AudioMarathonは、90.0秒から300.0秒までの長文音声入力と、2,250から7,500のオーディオトークンの符号化シーケンス、音声、音声、音楽の完全なドメインカバレッジ、マルチホップ推論を必要とする複雑な推論の3つの柱上に構築されたタスクセットを提供する。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
また,トークンプルーニングとKVキャッシュ消去のトレードオフを解析し,加速技術について検討する。
その結果、現在のLALM間に大きなギャップがあり、時間的推論とメモリ効率のよいアーキテクチャの必要性が浮かび上がっている。
我々はAudioMarathonが、オーディオおよびマルチモーダル研究コミュニティを推進し、複雑なオーディオタスクを解くことができるより高度なオーディオ理解モデルを開発すると信じている。
関連論文リスト
- BLAB: Brutally Long Audio Bench [90.20616799311578]
Brutally Long Audio Bench (BLAB) は、音像定位、時間推定、感情、計数タスクについて、音声のLMを評価するロングフォームオーディオベンチマークである。
BLABは833時間以上の多様なフル長の音声クリップで構成されており、それぞれに人間の注釈付き、テキストベースの自然言語の質問と回答が組み合わされている。
BLAB 上で6つのオープンソースおよびプロプライエタリなオーディオ LM を評価し,Gemini 2.0 Pro や GPT-4o などの先進的なモデルを含む,すべてのタスクが苦労していることを確認した。
論文 参考訳(メタデータ) (2025-05-05T22:28:53Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。