論文の概要: VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation
- arxiv url: http://arxiv.org/abs/2412.10768v1
- Date: Sat, 14 Dec 2024 09:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:29.341840
- Title: VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation
- Title(参考訳): VinTAGe:ホロスティックオーディオ生成のための共同ビデオとテキストコンディショニング
- Authors: Saksham Singh Kushwaha, Yapeng Tian,
- Abstract要約: 本稿では,VinTAGeについて紹介する。VinTAGeは,テキストと動画を共同で検討し,音声生成のガイドを行うフローベーストランスフォーマーモデルである。
私たちのフレームワークは、Visual-TextとJoint VT-SiTモデルという2つの重要なコンポーネントで構成されています。
VinTAGe-Benchは、636対のビデオテキストとオーディオのデータセットで、オンスクリーンとオフスクリーンの両方の音が含まれている。
- 参考スコア(独自算出の注目度): 27.9571263633586
- License:
- Abstract: Recent advances in audio generation have focused on text-to-audio (T2A) and video-to-audio (V2A) tasks. However, T2A or V2A methods cannot generate holistic sounds (onscreen and off-screen). This is because T2A cannot generate sounds aligning with onscreen objects, while V2A cannot generate semantically complete (offscreen sounds missing). In this work, we address the task of holistic audio generation: given a video and a text prompt, we aim to generate both onscreen and offscreen sounds that are temporally synchronized with the video and semantically aligned with text and video. Previous approaches for joint text and video-to-audio generation often suffer from modality bias, favoring one modality over the other. To overcome this limitation, we introduce VinTAGe, a flow-based transformer model that jointly considers text and video to guide audio generation. Our framework comprises two key components: a Visual-Text Encoder and a Joint VT-SiT model. To reduce modality bias and improve generation quality, we employ pretrained uni-modal text-to-audio and video-to-audio generation models for additional guidance. Due to the lack of appropriate benchmarks, we also introduce VinTAGe-Bench, a dataset of 636 video-text-audio pairs containing both onscreen and offscreen sounds. Our comprehensive experiments on VinTAGe-Bench demonstrate that joint text and visual interaction is necessary for holistic audio generation. Furthermore, VinTAGe achieves state-of-the-art results on the VGGSound benchmark. Our source code and pre-trained models will be released. Demo is available at: https://www.youtube.com/watch?v=QmqWhUjPkJI.
- Abstract(参考訳): 音声生成の最近の進歩は、テキスト・トゥ・オーディオ(T2A)とビデオ・トゥ・オーディオ(V2A)タスクに焦点を当てている。
しかし、T2A や V2A の手法では、全体音(スクリーン上およびオフスクリーン)を生成できない。
これは、T2Aが画面上のオブジェクトと整合する音を生成できないのに対し、V2Aはセマンティック・コンプリートを生成できないためである。
本研究では、ビデオとテキストプロンプトが与えられた場合、ビデオと時間的に同期し、テキストやビデオと意味的に一致したオンスクリーンとオフスクリーンの両方の音を生成することを目的としている。
ジョイントテキストとビデオ・トゥ・オーディオ生成に対する従来のアプローチは、しばしばモダリティバイアスに悩まされ、一方のモダリティが他方よりも好まれる。
この制限を克服するため,フローベーストランスフォーマーモデルであるVinTAGeを導入する。
私たちのフレームワークは、Visual-Text EncoderとJoint VT-SiTモデルという2つの重要なコンポーネントで構成されています。
モーダリティバイアスを低減し、生成品質を向上させるために、事前訓練された単モーダルテキスト・トゥ・オーディオとビデオ・ツー・オーディオ生成モデルを用いる。
VinTAGe-Benchは、636対のビデオテキストとオーディオのデータセットで、オンスクリーンとオフスクリーンの両方の音が含まれている。
VinTAGe-Benchに関する包括的実験により,音声の完全生成には関節テキストと視覚的相互作用が必要であることが示された。
さらに、VinTAGeはVGGSoundベンチマークで最先端の結果を得る。
ソースコードと事前訓練されたモデルがリリースされます。
デモは:https://www.youtube.com/watch?
v=QmqWhUjPkji。
関連論文リスト
- Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。