論文の概要: Tell What You Hear From What You See -- Video to Audio Generation Through Text
- arxiv url: http://arxiv.org/abs/2411.05679v1
- Date: Fri, 08 Nov 2024 16:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:55.160362
- Title: Tell What You Hear From What You See -- Video to Audio Generation Through Text
- Title(参考訳): 見るものから聞くもの - 動画からテキストによる音声生成
- Authors: Xiulong Liu, Kun Su, Eli Shlizerman,
- Abstract要約: VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
- 参考スコア(独自算出の注目度): 17.95017332858846
- License:
- Abstract: The content of visual and audio scenes is multi-faceted such that a video can be paired with various audio and vice-versa. Thereby, in video-to-audio generation task, it is imperative to introduce steering approaches for controlling the generated audio. While Video-to-Audio generation is a well-established generative task, existing methods lack such controllability. In this work, we propose VATT, a multi-modal generative framework that takes a video and an optional text prompt as input, and generates audio and optional textual description of the audio. Such a framework has two advantages: i) Video-to-Audio generation process can be refined and controlled via text which complements the context of visual information, and ii) The model can suggest what audio to generate for the video by generating audio captions. VATT consists of two key modules: VATT Converter, a LLM that is fine-tuned for instructions and includes a projection layer that maps video features to the LLM vector space; and VATT Audio, a transformer that generates audio tokens from visual frames and from optional text prompt using iterative parallel decoding. The audio tokens are converted to a waveform by pretrained neural codec. Experiments show that when VATT is compared to existing video-to-audio generation methods in objective metrics, it achieves competitive performance when the audio caption is not provided. When the audio caption is provided as a prompt, VATT achieves even more refined performance (lowest KLD score of 1.41). Furthermore, subjective studies show that VATT Audio has been chosen as preferred generated audio than audio generated by existing methods. VATT enables controllable video-to-audio generation through text as well as suggesting text prompts for videos through audio captions, unlocking novel applications such as text-guided video-to-audio generation and video-to-audio captioning.
- Abstract(参考訳): 映像シーンと音声シーンの内容は多面的であり、ビデオと様々なオーディオシーンとをペアリングすることができる。
これにより、ビデオ音声生成タスクでは、生成した音声を制御するためのステアリングアプローチを導入することが不可欠である。
Video-to-Audio生成は、よく確立された生成タスクであるが、既存の手法にはそのような制御性がない。
本研究では,ビデオとオプションのテキストプロンプトを入力として取り出すマルチモーダル生成フレームワークVATTを提案し,音声とオプションのテキスト記述を生成する。
このようなフレームワークには2つの利点がある。
一 視覚情報の文脈を補完するテキストにより、ビデオ・ツー・オーディオ生成プロセスを洗練・制御することができること。
二 モデルは、音声キャプションを生成して、ビデオにどのような音声を生成するかを提案することができる。
VATT Converterは命令用に微調整され、ビデオ特徴をLLMベクトル空間にマッピングするプロジェクション層を含む2つの主要なモジュールと、ビジュアルフレームからオーディオトークンを生成するトランスフォーマーと、反復並列復号を用いたオプションテキストプロンプトからなる。
オーディオトークンは、事前訓練されたニューラルコーデックにより波形に変換される。
実験により,VATTが既存の音声合成手法と客観的に比較した場合,音声キャプションが提供されない場合の競合性能が得られた。
オーディオキャプションがプロンプトとして提供されると、VATTはさらに洗練されたパフォーマンスを達成する(最も低いKLDスコアは1.41)。
さらに主観的研究により,VATTオーディオは既存の手法による音声よりも好まれていることが示された。
VATTは、音声キャプションによるビデオのテキストプロンプトの提案や、テキスト誘導型ビデオオーディオ生成やビデオオーディオキャプションといった新しいアプリケーションへのアンロックを可能にする。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation [24.403772976932487]
Sounding Video Generator (SVG) は、オーディオ信号とともにリアルな映像を生成するための統合されたフレームワークである。
VQGANは、視覚フレームとオーディオメロメログラムを離散トークンに変換する。
トランスフォーマーベースのデコーダは、テキスト、ビジュアルフレーム、オーディオ信号間の関連をモデル化するために使用される。
論文 参考訳(メタデータ) (2023-03-29T09:07:31Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。