論文の概要: Robustness assessment of large audio language models in multiple-choice evaluation
- arxiv url: http://arxiv.org/abs/2510.04584v1
- Date: Mon, 06 Oct 2025 08:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.754929
- Title: Robustness assessment of large audio language models in multiple-choice evaluation
- Title(参考訳): 複数選択評価における大規模音声モデルのロバスト性評価
- Authors: Fernando López, Santosh Kesiraju, Jordi Luque,
- Abstract要約: 我々は,3つのベンチマーク(MMAU,MMAR,MMSU)と4つのモデルにまたがる系統的研究を行った。
以上の結果から,モデルが選択の順序だけでなく,質問や選択のパラフレーズにも敏感であることが示唆された。
- 参考スコア(独自算出の注目度): 43.42989171223751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large audio language models (LALMs) have primarily been assessed using a multiple-choice question answering (MCQA) framework. However, subtle changes, such as shifting the order of choices, result in substantially different results. Existing MCQA frameworks do not account for this variability and report a single accuracy number per benchmark or category. We dive into the MCQA evaluation framework and conduct a systematic study spanning three benchmarks (MMAU, MMAR and MMSU) and four models: Audio Flamingo 2, Audio Flamingo 3, Qwen2.5-Omni-7B-Instruct, and Kimi-Audio-7B-Instruct. Our findings indicate that models are sensitive not only to the ordering of choices, but also to the paraphrasing of the question and the choices. Finally, we propose a simpler evaluation protocol and metric that account for subtle variations and provide a more detailed evaluation report of LALMs within the MCQA framework.
- Abstract(参考訳): 大規模音声言語モデル(LALM)の最近の進歩は、主にMCQA(Multiple-choice Question answering)フレームワークを用いて評価されている。
しかし、選択順序のシフトなどの微妙な変化は、実質的に異なる結果をもたらす。
既存のMCQAフレームワークはこのバリエーションを考慮せず、ベンチマークやカテゴリ毎に単一の精度番号を報告している。
MMAU,MMAR,MMSUの3つのベンチマークと4つのモデル(Audio Flamingo 2, Audio Flamingo 3, Qwen2.5-Omni-7B-Instruct,Kimi-Audio-7B-Instruct)にまたがる系統的研究を行った。
以上の結果から,モデルが選択の順序だけでなく,質問や選択のパラフレーズにも敏感であることが示唆された。
最後に,微妙な変動を考慮した簡易な評価プロトコルとメトリクスを提案し,MCQAフレームワーク内のLALMのより詳細な評価レポートを提供する。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Metric assessment protocol in the context of answer fluctuation on MCQ tasks [4.453107218424601]
MCQ(Multiple-choice Question)は,LLM機能を効率的に評価するための標準となっている。
これまでの研究では、徹底的な評価は行われていない。
本稿では,評価手法を変動率との関係から分析する計量評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-07-21T13:01:46Z) - Reasoning Models are Test Exploiters: Rethinking Multiple-Choice [12.317748510370238]
大きな言語モデル(LLM)は、固定された選択セットの中から選ぶように求められます。
McQCA(Multiple-choice Question-Awering)は、モデル下流のパフォーマンスのよいプロキシである。
本稿では,最先端の推論モデルにおいて,この傾向が持続する範囲について検討する。
論文 参考訳(メタデータ) (2025-07-21T07:49:32Z) - MMMOS: Multi-domain Multi-axis Audio Quality Assessment [49.48516314472825]
既存の非侵襲的評価モデルでは、音声の1つの平均オピニオンスコア(MOS)を予測する。
MMMOSは、プロダクション品質、生産複雑さ、コンテンツ満足度、コンテンツ有用性という4つの軸を推定する、非参照マルチドメインオーディオ品質評価システムである。
MMMOSは平均2乗誤差が20-30%減少し、ケンドールのタウ対ベースラインが4-5%増加した。
論文 参考訳(メタデータ) (2025-07-05T16:42:09Z) - SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。