Fugu-MT 論文翻訳(概要): Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding

論文の概要: Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding

arxiv url: http://arxiv.org/abs/2406.13275v1
Date: Wed, 19 Jun 2024 07:09:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 22:49:46.561026
Title: Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding
Title（参考訳）: 最適化音声符号化による大規模言語モデルによる自動音声キャプションの実現
Authors: Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang,
Abstract要約: 自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。大規模言語モデル(LLM)の最近の進歩は、AACを改善する可能性を広げている。提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。
参考スコア（独自算出の注目度）: 30.46616330202622
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated audio captioning (AAC) is an audio-to-text task to describe audio contents in natural language. Recently, the advancements in large language models (LLMs), with improvements in training approaches for audio encoders, have opened up possibilities for improving AAC. Thus, we explore enhancing AAC from three aspects: 1) a pre-trained audio encoder via consistent ensemble distillation (CED) is used to improve the effectivity of acoustic tokens, with a querying transformer (Q-Former) bridging the modality gap to LLM and compress acoustic tokens; 2) we investigate the advantages of using a Llama 2 with 7B parameters as the decoder; 3) another pre-trained LLM corrects text errors caused by insufficient training data and annotation ambiguities. Both the audio encoder and text decoder are optimized by -Base (LoRA). Experiments show that each of these enhancements is effective. Our method obtains a 33.0 SPIDEr-FL score, outperforming the winner of DCASE 2023 Task 6A.
Abstract（参考訳）: 自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。近年,大規模言語モデル(LLM)の進歩とオーディオエンコーダのトレーニング手法の改善により,AACの改善の可能性が高まっている。このようにして、3つの側面からAACを強化することを検討する。 1)一貫したアンサンブル蒸留(CED)による事前訓練されたオーディオエンコーダを用いて、LLMへのモダリティギャップをブリッジし、音響トークンを圧縮するクエリ変換器(Q-Former)を用いて、音響トークンの効果を向上させる。 2) 7BパラメータをデコーダとするLlama 2の利点を検討する。 3) 事前学習した別のLLMでは, トレーニングデータやアノテーションの曖昧さが不十分なため, テキストエラーを補正する。オーディオエンコーダとテキストデコーダは-Base (LoRA) によって最適化される。実験では、これらの拡張がそれぞれ有効であることが示されている。提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。

関連論文リスト

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding [58.29124051111574]
一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。 DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、4段階のカリキュラムで訓練されている。 MMSU、MMAU、MMARの実験では、DIFFA-2はDIFFAよりも一貫して改善されている。
論文参考訳（メタデータ） (2026-01-30T16:44:23Z)
Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos [16.213708405651644]
LG-CAV-MAEは、事前訓練されたテキストエンコーダを、コントラストのあるオーディオ視覚マスク付きオートエンコーダに統合する。本稿では,LG-CAV-MAEをトレーニングするために,ラベルなしビデオから音声・視覚テキスト三重奏を生成する自動手法を提案する。このアプローチは、手動のアノテーションを必要とせず、高品質な音声-視覚-テキスト三つ子を生成する。
論文参考訳（メタデータ） (2025-07-16T06:58:14Z)
PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs [16.820927353576774]
大規模言語モデル(LLM)への音声認識機能の統合は、オーディオ-LLMの大幅な進歩を可能にした。我々は,LLMがテキストクエリを満たすために,音声エンコーダ表現を適切に探索する能力として,効果的な音声-LLMインタラクションを概念化する。本稿では,建築設計の選択がそれにどのように影響するかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-12T07:23:07Z)
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文参考訳（メタデータ） (2025-06-10T16:37:39Z)
Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding [52.04807256534917]
LALM(Large Audio-Language Models)は、オーディオに提示されるものを幻覚させる。 LALMの幻覚を軽減するためにオーディオ・アウェア・デコーディング(AAD)を導入する。 AADはコントラストデコーディングを使用して、トークン予測ログとオーディオコンテキストの有無を比較します。
論文参考訳（メタデータ） (2025-06-08T17:36:50Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference [10.909997817643905]
提案する低フレームレート音声符号化(LFSC: Low Frame-rate Speech Codec)は, 有限スカラー量子化と大規模言語モデルによる対角訓練を利用して, 1.89kbps, 21.5fpsの高品質音声圧縮を実現するニューラルオーディオである。本稿では,従来のモデルに匹敵する品質を向上しつつ,テキスト音声モデルの3倍高速な推定が可能であることを実証する。
論文参考訳（メタデータ） (2024-09-18T16:39:10Z)
MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders [36.528216873338614]
本稿では,弱いエンコーダの混合物をAudioLLMフレームワークに組み込むことを提案する。 MoWEは、ベースエンコーダに比較的軽量なエンコーダのプールを補足し、音声入力に基づいて選択的にアクティベートし、モデルサイズを大幅に増大させることなく特徴抽出を強化する。実験の結果,MoWEはマルチタスク性能を効果的に向上し,AudioLLMsの多様なオーディオタスクへの適用性を高めた。
論文参考訳（メタデータ） (2024-09-10T16:46:18Z)
C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。 C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文参考訳（メタデータ） (2024-05-25T09:10:12Z)
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文参考訳（メタデータ） (2023-10-07T03:17:59Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文参考訳（メタデータ） (2023-04-06T07:58:27Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文参考訳（メタデータ） (2022-03-29T13:06:46Z)
Automatic Audio Captioning using Attention weighted Event based Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。 AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文参考訳（メタデータ） (2022-01-28T05:54:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。