論文の概要: LALM-Eval: An Open-Source Toolkit for Holistic Evaluation of Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2509.08031v1
- Date: Tue, 09 Sep 2025 15:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.21311
- Title: LALM-Eval: An Open-Source Toolkit for Holistic Evaluation of Large Audio Language Models
- Title(参考訳): LALM-Eval:大規模オーディオ言語モデルの完全性評価のためのオープンソースツールキット
- Authors: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan,
- Abstract要約: 大規模音声言語モデル(LALM)は急速に進歩しているが、評価は依然として難しい。
LALMの効率的かつ包括的な評価フレームワークであるLALM-Evalを紹介する。
本システムでは,バッチ処理と並列実行を最適化することにより,既存のツールキットよりも最大127%の高速化を実現している。
- 参考スコア(独自算出の注目度): 8.918587474371321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio Language Models (LALMs) are rapidly advancing, but evaluating them remains challenging due to inefficient toolkits that limit fair comparison and systematic assessment. Current frameworks suffer from three critical issues: slow processing that bottlenecks large-scale studies, inconsistent prompting that hurts reproducibility, and narrow task coverage that misses important audio reasoning capabilities. We introduce LALM-Eval, an efficient and comprehensive evaluation framework for LALMs. Our system achieves a speedup of up to 127% over existing toolkits through optimized batch processing and parallel execution, enabling large-scale evaluations previously impractical. We provide standardized prompting protocols and flexible configurations for fair model comparison across diverse scenarios. Additionally, we introduce two new evaluation categories: LLM-Adaptive Diarization for temporal audio understanding and Spoken Language Reasoning for complex audio-based cognitive tasks. Through evaluation across 380+ tasks, we reveal significant gaps in current LALMs, particularly in temporal understanding and complex spoken language reasoning tasks. Our findings also highlight a lack of standardization in instruction modality existent across audio benchmarks, which can lead up performance differences up to 9.5 absolute points on the challenging complex instruction following downstream tasks. LALM-Eval provides both practical evaluation tools and insights into model limitations, advancing systematic LALM development.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は急速に進歩しているが、公平な比較と体系的な評価を制限する非効率なツールキットのため、評価は依然として困難である。
現在のフレームワークには、大規模な研究をボトルネックにする遅い処理、再現性を損なう不整合プロンプト、重要なオーディオ推論能力を欠いたタスクカバレッジの3つの重大な問題がある。
LALMの効率的かつ包括的な評価フレームワークであるLALM-Evalを紹介する。
本システムでは,バッチ処理と並列実行を最適化することにより,既存のツールキットよりも最大127%の高速化を実現している。
標準化されたプロンプトプロトコルとフレキシブルな構成を提供し、様々なシナリオで公正なモデル比較を行う。
さらに、時間的音声理解のためのLLM適応ダイアリゼーションと、複雑な音声に基づく認知タスクのためのSpoke Language Reasoningという2つの新しい評価カテゴリを紹介した。
380以上のタスクを対象とした評価により,現在のLALM,特に時間的理解と複雑な音声言語推論タスクにおいて,大きなギャップが明らかになった。
以上の結果から,音声ベンチマークにおける命令モダリティの標準化が欠如していることが明らかとなった。
LALM-Evalは、実用的評価ツールとモデル制限に関する洞察の両方を提供し、体系的なLALM開発を進める。
関連論文リスト
- Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling [1.219841051166348]
本稿では,テキスト内検索とテスト時間スケーリングの併用の可能性について検討する。
内部スケーリングを付加したLLMに高度なコンテキスト内探索プロンプトを付加することにより、変換性能のブレークスルーを実現することができる。
論文 参考訳(メタデータ) (2025-05-28T12:28:18Z) - Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning [30.308743810639758]
大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T13:46:35Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。