論文の概要: How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
- arxiv url: http://arxiv.org/abs/2603.19195v1
- Date: Thu, 19 Mar 2026 17:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.310374
- Title: How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
- Title(参考訳): LLMバックボーンにおける聴覚知識が音声モデルをどのように形作るか:全体的評価
- Authors: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee,
- Abstract要約: 大規模言語モデル (LLM) は,Large Audio Language Models (LALM) の知識バックボーンとして広く利用されている。
テキストのみの事前学習によって符号化される聴覚知識の量と、それが下流のパフォーマンスに与える影響について検討する。
その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。
- 参考スコア(独自算出の注目度): 97.0235251827591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.
- Abstract(参考訳): 大規模言語モデル (LLMs) はLarge Audio Language Models (LALMs) の知識バックボーンとして広く使われているが、テキストのみの事前学習によってどの程度の聴覚知識がコード化され、それが下流のパフォーマンスにどのように影響するかは定かではない。
本研究では,(1)AKB-2000の直接探索,(2)聴覚知識の広さと深さを検証したベンチマーク,(2)音声キャプションからのテキスト記述をLCMが判断するケース,(3)LLMをLALM(Large Audio Language Model)とオーディオエンコーダに微調整するオーディオグラウンド評価,という2つのテキストオンリーと1つのオーディオグラウンド設定で比較することにより,このギャップについて検討する。
その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。
我々の研究は、オーディオ研究におけるLLMの包括的理解のための経験的基盤を提供する。
関連論文リスト
- PAL: Probing Audio Encoders via LLMs - Audio Information Transfer into LLMs [29.049167884343998]
大規模言語モデル(LLM)への音声認識の統合は、機械聴取アプリケーションを実現するための新たな研究分野である。
軽量オーディオLLM統合(LAL)の効率的な代替案を提案する。
LALは、LLMの異なるブロックに統合するために、リッチな音声セマンティクスを適切な抽象化レベルでエンコードする。
論文 参考訳(メタデータ) (2025-06-12T07:23:07Z) - Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding [54.82619273983179]
LALM(Large Audio-Language Models)は、オーディオに提示されるものを幻覚させる。
LALMの幻覚を軽減するためにオーディオ・アウェア・デコーディング(AAD)を導入する。
AADはコントラストデコーディングを使用して、トークン予測ログとオーディオコンテキストの有無を比較します。
論文 参考訳(メタデータ) (2025-06-08T17:36:50Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。
我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。
以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T23:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。