Fugu-MT 論文翻訳(概要): How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

論文の概要: How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

arxiv url: http://arxiv.org/abs/2603.19195v1
Date: Thu, 19 Mar 2026 17:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.310374
Title: How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
Title（参考訳）: LLMバックボーンにおける聴覚知識が音声モデルをどのように形作るか:全体的評価
Authors: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee,
Abstract要約: 大規模言語モデル (LLM) は,Large Audio Language Models (LALM) の知識バックボーンとして広く利用されている。テキストのみの事前学習によって符号化される聴覚知識の量と、それが下流のパフォーマンスに与える影響について検討する。その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。
参考スコア（独自算出の注目度）: 97.0235251827591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.
Abstract（参考訳）: 大規模言語モデル (LLMs) はLarge Audio Language Models (LALMs) の知識バックボーンとして広く使われているが、テキストのみの事前学習によってどの程度の聴覚知識がコード化され、それが下流のパフォーマンスにどのように影響するかは定かではない。本研究では,(1)AKB-2000の直接探索,(2)聴覚知識の広さと深さを検証したベンチマーク,(2)音声キャプションからのテキスト記述をLCMが判断するケース,(3)LLMをLALM(Large Audio Language Model)とオーディオエンコーダに微調整するオーディオグラウンド評価,という2つのテキストオンリーと1つのオーディオグラウンド設定で比較することにより,このギャップについて検討する。その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。我々の研究は、オーディオ研究におけるLLMの包括的理解のための経験的基盤を提供する。

論文の概要: How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

関連論文リスト