論文の概要: PAL: Probing Audio Encoders via LLMs - Audio Information Transfer into LLMs
- arxiv url: http://arxiv.org/abs/2506.10423v2
- Date: Tue, 14 Oct 2025 20:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.691693
- Title: PAL: Probing Audio Encoders via LLMs - Audio Information Transfer into LLMs
- Title(参考訳): PAL: LLMによるオーディオエンコーダの探索 - LLMへのオーディオ情報転送
- Authors: Tony Alex, Wish Suharitdamrong, Sara Atito, Armin Mustafa, Philip J. B. Jackson, Imran Razzak, Muhammad Awais,
- Abstract要約: 大規模言語モデル(LLM)への音声認識の統合は、機械聴取アプリケーションを実現するための新たな研究分野である。
軽量オーディオLLM統合(LAL)の効率的な代替案を提案する。
LALは、LLMの異なるブロックに統合するために、リッチな音声セマンティクスを適切な抽象化レベルでエンコードする。
- 参考スコア(独自算出の注目度): 29.049167884343998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of audio perception into large language models (LLMs) is an emerging research area for enabling machine listening applications, yet efficient transfer of rich audio semantics from audio encoders to LLMs remains underexplored. The most widely used integration paradigm projects the audio encoder output tokens into the LLM input space (e.g., via an MLP or a Q-Former), then prepends or inserts them to the text tokens. We refer to this generic scheme as Prepend to the LLM's input token space (PLITS) integration. We propose an efficient alternative, Lightweight Audio LLM Integration (LAL). LAL introduces audio representations solely via the attention mechanism within different layers of the LLM, bypassing its feedforward module. LAL encodes rich audio semantics at an appropriate level of abstraction for integration into different blocks of LLMs. Our design significantly reduces computational overhead compared to existing integration approaches. Observing with Whisper that the speech encoder benefits from PLITS integration, we propose an audio encoder aware approach for efficiently Probing Audio encoders via LLM (PAL), which employs PLITS integration for Whisper and LAL for general audio encoders. Under an identical training curriculum, LAL consistently maintains performance or outperforms existing integration approaches across multiple base LLMs and tasks. For general audio tasks, LAL improvement is up to 30% over a strong PLITS baseline while reducing memory usage by up to 64.1% and increasing throughput by up to 247.5%. Furthermore, for general audio-music-speech LLM, PAL performs on par with a fully PLITS integration-based system but with substantially improved computational and memory efficiency. Project page: https://ta012.github.io/PAL/
- Abstract(参考訳): 大規模言語モデル(LLM)への音声認識の統合は、機械聴取アプリケーションを実現するための新たな研究分野である。
最も広く使われている統合パラダイムは、オーディオエンコーダの出力トークンを LLM 入力空間(例えば MLP または Q-Former を介して)に投影し、テキストトークンにプリペンドまたは挿入するものである。
この汎用スキームを LLM の入力トークン空間 (PLITS) 統合のためのプレペンドと呼ぶ。
本稿では,LAL(Lightweight Audio LLM Integration)を提案する。
LALは、LLMの異なるレイヤ内の注意機構を通じてのみオーディオ表現を導入し、フィードフォワードモジュールをバイパスする。
LALは、LLMの異なるブロックに統合するために、リッチな音声セマンティクスを適切な抽象化レベルでエンコードする。
我々の設計は、既存の統合アプローチに比べて計算オーバーヘッドを大幅に削減する。
音声エンコーダがPLITS統合の恩恵を受けることをWhisperで確認し,汎用オーディオエンコーダにPLITSを組み込んだLLM(PAL)による音声エンコーダの効率向上のための音声エンコーダ認識手法を提案する。
同じトレーニングカリキュラムの下で、LALは継続的にパフォーマンスを維持したり、複数のベースLLMやタスクにまたがる既存の統合アプローチより優れています。
一般的なオーディオタスクでは、強力なPLITSベースラインよりも最大30%改善され、メモリ使用量が64.1%削減され、スループットが247.5%向上した。
さらに、一般の音声合成LLMでは、PALは完全にPLITS統合ベースのシステムと同等に動作するが、計算とメモリ効率は大幅に改善されている。
プロジェクトページ: https://ta012.github.io/PAL/
関連論文リスト
- DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。
我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。
以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T23:46:01Z) - Make Some Noise: Towards LLM audio reasoning and generation using sound tokens [19.48089933713418]
本稿では,変分量子化とフローマッチングを組み合わせることで,音声を0.23kpbの超低離散トークンに変換する手法を提案する。
我々のトークン化器は、様々な音響イベントを持つ様々なデータセットで従来のVQ-VAEより優れています。
論文 参考訳(メタデータ) (2025-03-28T09:43:47Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。