論文の概要: FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
- arxiv url: http://arxiv.org/abs/2506.01111v1
- Date: Sun, 01 Jun 2025 18:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.937435
- Title: FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion
- Title(参考訳): FusionAudio-1.2M:マルチモーダルコンテクスト融合による微細オーディオキャプションを目指して
- Authors: Shunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang,
- Abstract要約: 高品質で大規模な音声キャプションは、音声理解の進歩に不可欠である。
現在の自動化手法は、細かな細部や文脈の正確さに欠けるキャプションを生成することが多い。
本稿では,複雑な音声環境のよりきめ細やかで正確な理解方法を提案する。
- 参考スコア(独自算出の注目度): 14.43138123445589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality, large-scale audio captioning is crucial for advancing audio understanding, yet current automated methods often generate captions that lack fine-grained detail and contextual accuracy, primarily due to their reliance on limited unimodal or superficial multimodal information. Drawing inspiration from human auditory perception, which adeptly integrates cross-modal cues and performs sophisticated auditory scene analysis, we introduce a novel two-stage automated pipeline. This pipeline first employs specialized pretrained models to extract diverse contextual cues (e.g., speech, music, general sounds, and visual information from associated video). A large language model (LLM) then synthesizes these rich, multimodal inputs to generate detailed and context-aware audio captions. Key contributions of this work include: (1) the proposed scalable method for fine-grained audio caption generation; (2) FusionAudio, a new large-scale dataset comprising 1.2 million such detailed captions, combined with 6 million QA pairs; and (3) enhanced audio models developed using FusionAudio, specifically a CLAP-based audio encoder with superior audio-text alignment and instruction following. This paper paves the way for more nuanced and accurate automated understanding of complex audio environments. Code and data can be found in https://github.com/satsuki2486441738/FusionAudio.
- Abstract(参考訳): 高品質で大規模な音声キャプションは、音声理解の進歩に不可欠であるが、現在の自動化手法では、細かな細部や文脈の正確性に欠けるキャプションをしばしば生成している。
クロスモーダル・キューを巧みに統合し,洗練された聴覚シーン分析を行う人間の聴覚知覚からインスピレーションを得て,新しい2段階自動パイプラインを導入する。
このパイプラインは、まず、様々な文脈的手がかり(例えば、音声、音楽、一般的な音、および関連ビデオから視覚情報)を抽出するために、訓練済みの特殊なモデルを使用する。
大規模言語モデル(LLM)は、これらのリッチでマルチモーダルな入力を合成し、詳細でコンテキストに合った音声キャプションを生成する。
本研究の主な貢献は,(1)細粒度音声キャプション生成のためのスケーラブルな方法,(2)FusionAudio,(2)120万件の詳細なキャプションと600万のQAペアを組み合わせた大規模データセット,(3)FusionAudioを用いて開発された拡張オーディオモデル,特にCLAPベースのオーディオエンコーダによる優れた音声テキストアライメントとインストラクションを含む。
本稿では,複雑な音声環境のよりきめ細やかで正確な理解方法を提案する。
コードとデータはhttps://github.com/satsuki2486441738/FusionAudioで見ることができる。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。
ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。
既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文 参考訳(メタデータ) (2025-04-02T18:47:09Z) - AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。
オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。
データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-13T16:30:59Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。