論文の概要: PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs
- arxiv url: http://arxiv.org/abs/2506.10423v1
- Date: Thu, 12 Jun 2025 07:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.62588
- Title: PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs
- Title(参考訳): PAL:LLMによるオーディオエンコーダの探索 -- オーディオエンコーダからLLMへの情報伝達の検討
- Authors: Tony Alex, Wish Suharitdamrong, Sara Atito, Armin Mustafa, Philip J. B. Jackson, Imran Razzak, Muhammad Awais,
- Abstract要約: 大規模言語モデル(LLM)への音声認識機能の統合は、オーディオ-LLMの大幅な進歩を可能にした。
我々は,LLMがテキストクエリを満たすために,音声エンコーダ表現を適切に探索する能力として,効果的な音声-LLMインタラクションを概念化する。
本稿では,建築設計の選択がそれにどのように影響するかを体系的に検討する。
- 参考スコア(独自算出の注目度): 16.820927353576774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of audio perception capabilities into Large Language Models (LLMs) has enabled significant advances in Audio-LLMs. Although application-focused developments, particularly in curating training data for specific capabilities e.g., audio reasoning, have progressed rapidly, the underlying mechanisms that govern efficient transfer of rich semantic representations from audio encoders to LLMs remain under-explored. We conceptualize effective audio-LLM interaction as the LLM's ability to proficiently probe the audio encoder representations to satisfy textual queries. This paper presents a systematic investigation on how architectural design choices can affect that. Beginning with a standard Pengi/LLaVA-style audio-LLM architecture, we propose and evaluate several modifications guided by hypotheses derived from mechanistic interpretability studies and LLM operational principles. Our experiments demonstrate that: (1) delaying audio integration until the LLM's initial layers establish textual context that enhances its ability to probe the audio representations for relevant information; (2) the LLM can proficiently probe audio representations exclusively through LLM layer's attention submodule, without requiring propagation to its Feed-Forward Network (FFN) submodule; (3) an efficiently integrated ensemble of diverse audio encoders provides richer, complementary representations, thereby broadening the LLM's capacity to probe a wider spectrum of audio information. All hypotheses are evaluated using an identical three-stage training curriculum on a dataset of 5.6 million audio-text pairs, ensuring controlled comparisons. Our final architecture, which incorporates all proposed modifications, achieves relative improvements from 10\% to 60\% over the baseline, validating our approach to optimizing cross-modal information transfer in audio-LLMs. Project page: https://ta012.github.io/PAL/
- Abstract(参考訳): 大規模言語モデル(LLM)への音声認識機能の統合は、オーディオ-LLMの大幅な進歩を可能にした。
アプリケーション中心の開発、特に音声推論などの特定の機能のためのトレーニングデータのキュレーションは急速に進んでいるが、音声エンコーダからLLMへのリッチなセマンティック表現の効率的な転送を規定する基盤メカニズムはいまだ解明されていない。
我々は,LLMがテキストクエリを満たすために,音声エンコーダ表現を適切に探索する能力として,効果的な音声-LLMインタラクションを概念化する。
本稿では,建築設計の選択がそれにどのように影響するかを体系的に検討する。
標準的なPengi/LLaVAスタイルのオーディオ-LLMアーキテクチャから始まり、機械的解釈可能性研究とLCMの運用原理から導かれる仮説によって導かれるいくつかの修正を提案し、評価する。
実験では,(1)LLMの初期層が関連する情報に対する音声表現を探索する能力を高めるためのテキストコンテキストを確立するまで音声統合を遅らせること,(2)LLMは,そのフィードフォワードネットワーク(FFN)サブモジュールへの伝搬を必要とせずに,LLMレイヤのアテンションサブモジュールを介してのみ音声表現をプロシージャ的に探索できること,(3)多様なオーディオエンコーダの効率的な統合アンサンブルにより,よりリッチで補完的な表現が提供され,LLMの広い範囲の音声情報を探索する能力が拡大されること,などが実証された。
すべての仮説は、560万の音声テキストペアのデータセット上で、同じ3段階のトレーニングカリキュラムを使用して評価され、制御された比較が保証される。
提案したすべての変更を組み込んだ最終アーキテクチャは,ベースライン上の10\%から60\%の相対的な改善を実現し,オーディオ-LLMにおけるクロスモーダル情報転送の最適化へのアプローチを検証した。
プロジェクトページ: https://ta012.github.io/PAL/
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。
我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。
以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T23:46:01Z) - Make Some Noise: Towards LLM audio reasoning and generation using sound tokens [19.48089933713418]
本稿では,変分量子化とフローマッチングを組み合わせることで,音声を0.23kpbの超低離散トークンに変換する手法を提案する。
我々のトークン化器は、様々な音響イベントを持つ様々なデータセットで従来のVQ-VAEより優れています。
論文 参考訳(メタデータ) (2025-03-28T09:43:47Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。