Fugu-MT 論文翻訳(概要): Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis

論文の概要: Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis

arxiv url: http://arxiv.org/abs/2409.06135v1
Date: Tue, 10 Sep 2024 01:07:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:30:38.962686
Title: Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
Title（参考訳）: 音声を描画する: 音声合成のためのマルチインストラクションの活用
Authors: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang,
Abstract要約: フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。 Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
参考スコア（独自算出の注目度）: 28.172213291270868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foley is a term commonly used in filmmaking, referring to the addition of daily sound effects to silent films or videos to enhance the auditory experience. Video-to-Audio (V2A), as a particular type of automatic foley task, presents inherent challenges related to audio-visual synchronization. These challenges encompass maintaining the content consistency between the input video and the generated audio, as well as the alignment of temporal and loudness properties within the video. To address these issues, we construct a controllable video-to-audio synthesis model, termed Draw an Audio, which supports multiple input instructions through drawn masks and loudness signals. To ensure content consistency between the synthesized audio and target video, we introduce the Mask-Attention Module (MAM), which employs masked video instruction to enable the model to focus on regions of interest. Additionally, we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness signal to ensure the synthesis of sound that aligns with the video in both loudness and temporal dimensions. Furthermore, we have extended a large-scale V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive experiments on challenging benchmarks across two large-scale V2A datasets verify Draw an Audio achieves the state-of-the-art. Project page: https://yannqi.github.io/Draw-an-Audio/.
Abstract（参考訳）: フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。 Video-to-Audio (V2A) は、音声と視覚の同期に固有の課題を提示する。これらの課題は、入力されたビデオと生成されたオーディオ間のコンテンツ一貫性の維持と、ビデオ内の時間的および大音量の特性の整合性を含む。これらの問題に対処するため、我々はDraw an Audioと呼ばれる制御可能な音声合成モデルを構築し、描画マスクと大音量信号による複数の入力命令をサポートする。合成音声と対象映像のコンテントの整合性を確保するため,マスク・アテンション・モジュール(Mask-Attention Module,MAM)を導入する。さらに,大音量と時間次元の両方で映像に一致した音の合成を保証するため,補助音量信号を用いたTLMを実装した。さらに,キャプションプロンプトを付加することにより,VGGSound-Captionと呼ばれる大規模V2Aデータセットを拡張した。大規模な2つのV2Aデータセットにわたる挑戦的なベンチマークに関する大規模な実験は、Draw an Audioが最先端を達成することを検証している。プロジェクトページ: https://yannqi.github.io/Draw-an-Audio/。

関連論文リスト

SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文参考訳（メタデータ） (2025-08-01T17:05:04Z)
Hear-Your-Click: Interactive Object-Specific Video-to-Audio Generation [6.631248829195371]
本稿では,対話型V2AフレームワークであるHear-Your-Clickを紹介した。そこで本稿では,Mask-Guided Visual (MVE) を用いた物体認識型コントラスト・オーディオ・ビジュアル・ファインタニング(OCAV)を提案する。音声と視覚の対応性を測定するため,新しい評価基準であるCAVスコアを考案した。
論文参考訳（メタデータ） (2025-07-07T13:01:50Z)
Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control [15.295872522067212]
Tri-Ergonは拡散に基づくV2Aモデルであり、テキスト、聴覚、ピクセルレベルの視覚的プロンプトを組み込んでいる。 LUFSの埋め込みにより、個々のオーディオチャンネルの時間とともに大きな変化を正確に手動で制御できる。 Tri-Ergonは44.1kHzの高忠実度ステレオオーディオクリップを最大60秒まで作成できる。
論文参考訳（メタデータ） (2024-12-29T06:46:24Z)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文参考訳（メタデータ） (2024-12-19T18:57:21Z)
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls [11.796771978828403]
サウンドデザイナーやフォーリーアーティストは、通常、映画やビデオゲームのようなシーンを手動でアノテートし、ビデオに対する各アクションをソノエートすることによって、ソノエートする。本稿では、入力ビデオに関連する音響特性のエンベロープを推定するRMS-Mapperと、対象ビデオに意味的かつ時間的に一致した音声を生成する拡散モデルであるStable-Foleyの2段階モデルを提案する。
論文参考訳（メタデータ） (2024-12-19T16:37:19Z)
Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。 VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文参考訳（メタデータ） (2024-11-08T16:29:07Z)
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。 VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文参考訳（メタデータ） (2024-10-04T11:40:53Z)
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文参考訳（メタデータ） (2024-08-21T18:06:15Z)
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。 FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文参考訳（メタデータ） (2024-07-01T17:35:56Z)
AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。 AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文参考訳（メタデータ） (2024-04-25T12:55:58Z)
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文参考訳（メタデータ） (2023-11-09T19:15:12Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文参考訳（メタデータ） (2023-09-18T12:24:02Z)
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文参考訳（メタデータ） (2023-06-29T12:39:58Z)
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。 Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。 Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文参考訳（メタデータ） (2023-06-05T13:17:27Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文参考訳（メタデータ） (2021-05-17T08:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。