論文の概要: MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation
- arxiv url: http://arxiv.org/abs/2406.10591v1
- Date: Sat, 15 Jun 2024 10:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:43:29.538585
- Title: MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation
- Title(参考訳): MINT:フォリーオーディオコンテンツプランニングと生成のためのマルチモーダル画像およびナラティブテキストダビングデータセット
- Authors: Ruibo Fu, Shuchen Shi, Hongming Guo, Tao Wang, Chunyu Qiang, Zhengqi Wen, Jianhua Tao, Xin Qi, Yi Lu, Xiaopeng Wang, Zhiyong Wang, Yukun Liu, Xuefei Liu, Shuai Zhang, Guanjun Li,
- Abstract要約: Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
- 参考スコア(独自算出の注目度): 43.35578187209748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foley audio, critical for enhancing the immersive experience in multimedia content, faces significant challenges in the AI-generated content (AIGC) landscape. Despite advancements in AIGC technologies for text and image generation, the foley audio dubbing remains rudimentary due to difficulties in cross-modal scene matching and content correlation. Current text-to-audio technology, which relies on detailed and acoustically relevant textual descriptions, falls short in practical video dubbing applications. Existing datasets like AudioSet, AudioCaps, Clotho, Sound-of-Story, and WavCaps do not fully meet the requirements for real-world foley audio dubbing task. To address this, we introduce the Multi-modal Image and Narrative Text Dubbing Dataset (MINT), designed to enhance mainstream dubbing tasks such as literary story audiobooks dubbing, image/silent video dubbing. Besides, to address the limitations of existing TTA technology in understanding and planning complex prompts, a Foley Audio Content Planning, Generation, and Alignment (CPGA) framework is proposed, which includes a content planning module leveraging large language models for complex multi-modal prompts comprehension. Additionally, the training process is optimized using Proximal Policy Optimization based reinforcement learning, significantly improving the alignment and auditory realism of generated foley audio. Experimental results demonstrate that our approach significantly advances the field of foley audio dubbing, providing robust solutions for the challenges of multi-modal dubbing. Even when utilizing the relatively lightweight GPT-2 model, our framework outperforms open-source multimodal large models such as LLaVA, DeepSeek-VL, and Moondream2. The dataset is available at https://github.com/borisfrb/MINT .
- Abstract(参考訳): マルチメディアコンテンツにおける没入感を高めるために重要なフォーリーオーディオは、AIGC(AI- generated Content)ランドスケープにおいて大きな課題に直面している。
テキストと画像生成のためのAIGC技術の進歩にもかかわらず、クロスモーダルなシーンマッチングとコンテンツ相関が難しいため、フォリーオーディオダビングは未熟である。
現在のテキスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存しているが、実際的なビデオダビングでは不十分である。
AudioSet、AudioCaps、Clotho、Sound-of-Story、WavCapsといった既存のデータセットは、実際のフォリーオーディオダビングタスクの要件を完全に満たしていない。
そこで本稿では,MINT(Multi-modal Image and Narrative Text Dubbing Dataset)を提案する。
さらに、複雑なプロンプトの理解と計画における既存のTTA技術の限界に対処するため、複雑なマルチモーダルプロンプトに対する大規模言語モデルを活用するコンテンツ計画モジュールを含む、Foley Audio Content Planning, Generation, and Alignment (CPGA)フレームワークが提案されている。
さらに、このトレーニングプロセスは、近似ポリシー最適化に基づく強化学習を用いて最適化され、生成されたフォリーオーディオのアライメントと聴覚リアリズムを大幅に改善する。
実験により,本手法は,マルチモーダルダビングの課題に対するロバストな解決策として,フォリーオーディオダビングの分野を著しく進歩させることが示された。
比較的軽量なGPT-2モデルを利用しても、LLaVA、DeepSeek-VL、Moondream2といったオープンソースのマルチモーダル大モデルよりも優れています。
データセットはhttps://github.com/borisfrb/MINT で公開されている。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource
Parallel Data [15.658471125219224]
音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。
しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。
本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
論文 参考訳(メタデータ) (2022-04-10T10:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。