論文の概要: LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence
- arxiv url: http://arxiv.org/abs/2601.04658v1
- Date: Thu, 08 Jan 2026 07:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.07394
- Title: LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence
- Title(参考訳): LAMB: Cauchy-Schwarz DivergenceによるモダリティギャップブリッジによるLCMベースのオーディオキャプション
- Authors: Hyeongkeun Lee, Jongmin Choi, KiHyun Nam, Joon Son Chung,
- Abstract要約: LAMBは、オーディオ埋め込みとテキスト埋め込み空間の間のモダリティギャップを橋渡しするオーディオキャプションフレームワークである。
クロスモーダルアリグナーは、相互情報を最大化しながら、コーシー=シュワルツの発散を最小限にする。
セマンティックにリッチなオーディオ埋め込みを抽出するTwo-Stream Adapterは、よりリッチな情報をCross-Modal Alignerに提供する。
- 参考スコア(独自算出の注目度): 35.123477091633866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated Audio Captioning aims to describe the semantic content of input audio. Recent works have employed large language models (LLMs) as a text decoder to leverage their reasoning capabilities. However, prior approaches that project audio features into the LLM embedding space without considering cross-modal alignment fail to fully utilize these capabilities. To address this, we propose LAMB, an LLM-based audio captioning framework that bridges the modality gap between audio embeddings and the LLM text embedding space. LAMB incorporates a Cross-Modal Aligner that minimizes Cauchy-Schwarz divergence while maximizing mutual information, yielding tighter alignment between audio and text at both global and token levels. We further design a Two-Stream Adapter that extracts semantically enriched audio embeddings, thereby delivering richer information to the Cross-Modal Aligner. Finally, leveraging the aligned audio embeddings, a proposed Token Guide directly computes scores within the LLM text embedding space to steer the output logits of generated captions. Experimental results confirm that our framework strengthens the reasoning capabilities of the LLM decoder, achieving state-of-the-art performance on AudioCaps.
- Abstract(参考訳): Automated Audio Captioningは、入力オーディオの意味的内容を記述することを目的としている。
最近の研究では、大きな言語モデル(LLM)をテキストデコーダとして採用し、推論能力を活用している。
しかし,LLM埋め込み空間に音声機能を投影する従来の手法は,これらの機能を十分に活用することができない。
そこで本稿では,LLM と LLM テキスト埋め込み空間のモダリティギャップを埋める LLM ベースのオーディオキャプションフレームワークである LAMB を提案する。
LAMBにはCross-Modal Alignerが組み込まれており、Cauchy-Schwarzの発散を最小限に抑えつつ、相互情報の最大化を実現している。
さらに,セマンティックにリッチなオーディオ埋め込みを抽出し,よりリッチな情報をクロスモーダル・アリグナーに提供する2ストリーム・アダプタを設計する。
最後に、アライメントされたオーディオ埋め込みを利用して、提案されたToken Guideは、LLMテキスト埋め込み空間内のスコアを直接計算し、生成されたキャプションの出力ロジットを操縦する。
実験により,本フレームワークはLLMデコーダの推論能力を強化し,AudioCapsの最先端性能を実現していることを確認した。
関連論文リスト
- Towards Audio Token Compression in Large Audio Language Models [26.379508239446935]
大規模オーディオ言語モデル(LALM)は、様々なタスクにまたがる素晴らしいパフォーマンスを示している。
しかし、そのスケーラビリティは、注意の二次的な複雑さと、音声信号の高いトークンレートによって制限される。
本稿では,LALMのオーディオエンコーダが生成する音声トークン数を,LCMデコーダが消費する前に削減する手法について検討する。
論文 参考訳(メタデータ) (2025-11-26T02:00:38Z) - VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion [7.96619533548369]
本稿では,事前訓練されたデコーダベース大規模言語モデル(LLM)とWhisperのような音響エンコーダ-デコーダアーキテクチャをブリッジするフレームワークを提案する。
提案手法は連続的なテキスト表現空間で完全に動作し,Whisperの隠れデコーダ状態とLLMの状態とを相互注意により融合する。
論文 参考訳(メタデータ) (2025-09-19T06:42:42Z) - PAL: Probing Audio Encoders via LLMs - Audio Information Transfer into LLMs [29.049167884343998]
大規模言語モデル(LLM)への音声認識の統合は、機械聴取アプリケーションを実現するための新たな研究分野である。
軽量オーディオLLM統合(LAL)の効率的な代替案を提案する。
LALは、LLMの異なるブロックに統合するために、リッチな音声セマンティクスを適切な抽象化レベルでエンコードする。
論文 参考訳(メタデータ) (2025-06-12T07:23:07Z) - Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。