論文の概要: BLAB: Brutally Long Audio Bench
- arxiv url: http://arxiv.org/abs/2505.03054v2
- Date: Mon, 12 May 2025 19:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 12:30:10.404732
- Title: BLAB: Brutally Long Audio Bench
- Title(参考訳): BLAB:Brutally Long Audio Bench
- Authors: Orevaoghene Ahia, Martijn Bartelds, Kabir Ahuja, Hila Gonen, Valentin Hofmann, Siddhant Arora, Shuyue Stella Li, Vishal Puttagunta, Mofetoluwa Adeyemi, Charishma Buchireddy, Ben Walls, Noah Bennett, Shinji Watanabe, Noah A. Smith, Yulia Tsvetkov, Sachin Kumar,
- Abstract要約: Brutally Long Audio Bench (BLAB) は、音像定位、時間推定、感情、計数タスクについて、音声のLMを評価するロングフォームオーディオベンチマークである。
BLABは833時間以上の多様なフル長の音声クリップで構成されており、それぞれに人間の注釈付き、テキストベースの自然言語の質問と回答が組み合わされている。
BLAB 上で6つのオープンソースおよびプロプライエタリなオーディオ LM を評価し,Gemini 2.0 Pro や GPT-4o などの先進的なモデルを含む,すべてのタスクが苦労していることを確認した。
- 参考スコア(独自算出の注目度): 90.20616799311578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing large audio language models (LMs) capable of understanding diverse spoken interactions is essential for accommodating the multimodal nature of human communication and can increase the accessibility of language technologies across different user populations. Recent work on audio LMs has primarily evaluated their performance on short audio segments, typically under 30 seconds, with limited exploration of long-form conversational speech segments that more closely reflect natural user interactions with these models. We introduce Brutally Long Audio Bench (BLAB), a challenging long-form audio benchmark that evaluates audio LMs on localization, duration estimation, emotion, and counting tasks using audio segments averaging 51 minutes in length. BLAB consists of 833+ hours of diverse, full-length audio clips, each paired with human-annotated, text-based natural language questions and answers. Our audio data were collected from permissively licensed sources and underwent a human-assisted filtering process to ensure task compliance. We evaluate six open-source and proprietary audio LMs on BLAB and find that all of them, including advanced models such as Gemini 2.0 Pro and GPT-4o, struggle with the tasks in BLAB. Our comprehensive analysis reveals key insights into the trade-offs between task difficulty and audio duration. In general, we find that audio LMs struggle with long-form speech, with performance declining as duration increases. They perform poorly on localization, temporal reasoning, counting, and struggle to understand non-phonemic information, relying more on prompts than audio content. BLAB serves as a challenging evaluation framework to develop audio LMs with robust long-form audio understanding capabilities.
- Abstract(参考訳): 多様な音声対話を理解することが可能な大規模音声言語モデル(LM)の開発は、人間のコミュニケーションのマルチモーダルな性質を調節し、異なるユーザ集団にわたる言語技術のアクセシビリティを高めるために不可欠である。
音声 LM に関する最近の研究は、主に30秒未満の短い音声セグメントのパフォーマンスを評価しており、これらのモデルとの自然なユーザーインタラクションをより深く反映した、長い形式の会話音声セグメントを限定的に探索している。
我々はBrutally Long Audio Bench (BLAB)を紹介した。これは、音声セグメントの平均長さ51分を用いて、位置推定、時間推定、感情推定、タスクのカウントについて、音声LMを評価する挑戦的なロングフォームオーディオベンチマークである。
BLABは833時間以上の多様なフル長の音声クリップで構成されており、それぞれに人間の注釈付き、テキストベースの自然言語の質問と回答が組み合わされている。
音声データはパーミッシブにライセンスされたソースから収集され、タスクコンプライアンスを確保するために人手によるフィルタリングプロセスが実行された。
BLAB上での6つのオープンソースおよびプロプライエタリなオーディオ LM を評価し,Gemini 2.0 Pro や GPT-4o などの先進モデルを含む,すべてBLAB の課題に対処していることを確認した。
包括的分析により,タスクの難易度と音声の持続時間とのトレードオフに関する重要な知見が明らかになった。
一般に、音声LMは長文音声に苦しむが、持続時間が長くなるにつれて性能が低下する。
ローカライゼーション、時間的推論、カウント、非音声情報の理解に苦慮し、音声コンテンツよりもプロンプトに頼っている。
BLABは、堅牢な長文音声理解機能を持つオーディオLMを開発する上で、難しい評価フレームワークとして機能する。
関連論文リスト
- Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。