Fugu-MT 論文翻訳(概要): Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

論文の概要: Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

arxiv url: http://arxiv.org/abs/2408.11915v1
Date: Wed, 21 Aug 2024 18:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 18:06:47.053458
Title: Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
Title（参考訳）: Video-Foley:フォリー音の時間的イベント条件による2段階のビデオ音声生成
Authors: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam,
Abstract要約: 音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
参考スコア（独自算出の注目度）: 6.638504164134713
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)
Abstract（参考訳）: 音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。明示的な時間的特徴を欠いたシステムは制御性やアライメントの低下に悩まされ、タイムスタンプベースのモデルは高価で主観的な人間のアノテーションを必要とする。音声やテキストによる意味音のプロンプトを伴う時間的事象条件として,Root Mean Square (RMS) を用いたビデオ・ツー・サウンドシステムである Video-Foley を提案する。フレームレベルのインテンシティエンベロープ機能であるRMSは、音声セマンティクスと密接に関連しており、高い制御性と同期性を保証する。アノテーションなしの自己教師型学習フレームワークは、ビデオ2RMSとRMS2Soundの2つの段階で構成され、RMSの離散化やRMS-ControlNetなどの新しいアイデアを事前訓練されたテキスト・音声モデルに取り入れている。広範に評価した結果,Voice-Foleyは音のタイミング,強度,音色,ニュアンスに対して,映像のアライメントと制御性の向上を実現している。コード、モデルウェイト、デモは、付随するウェブサイトで公開されている。 (https://jnwnlee.github.io/video-foley-demo)

関連論文リスト

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing [60.38045088180188]
高精度な韻律アライメントで高品質なダビング生成を実現するために,音響プロソディディスト2段法を提案する。我々は、異なる映画における視覚領域シフトの影響を低減するために、ドメイン内感情分析モジュールを組み込んだ。提案手法は,2つのベンチマークにおける最先端モデルに対して良好に機能する。
論文参考訳（メタデータ） (2025-03-15T08:25:57Z)
ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation [72.22243595269389]
本稿では,自律型サウンドディレクタによって教師される音声生成のためのマルチエージェントフレームワークを提案する。 Foley ArtistはComposerとVoice Actorのエージェントと共同で働き、共同でオフスクリーンサウンドを自動生成して全体の生産を補完する。本フレームワークは,映画から抽出した映像クリップに調和した,リッチで関連性の高い音声コンテンツを生成できる。
論文参考訳（メタデータ） (2025-03-10T11:57:55Z)
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。 MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。 MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文参考訳（メタデータ） (2024-12-19T18:59:55Z)
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls [11.796771978828403]
サウンドデザイナーやフォーリーアーティストは、通常、映画やビデオゲームのようなシーンを手動でアノテートし、ビデオに対する各アクションをソノエートすることによって、ソノエートする。本稿では、入力ビデオに関連する音響特性のエンベロープを推定するRMS-Mapperと、対象ビデオに意味的かつ時間的に一致した音声を生成する拡散モデルであるStable-Foleyの2段階モデルを提案する。
論文参考訳（メタデータ） (2024-12-19T16:37:19Z)
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。数ショット設定で高品質なオーディオ生成をサポートする。本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文参考訳（メタデータ） (2024-12-12T10:55:57Z)
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。 VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文参考訳（メタデータ） (2024-10-04T11:40:53Z)
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。 Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文参考訳（メタデータ） (2024-09-10T01:07:20Z)
Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文参考訳（メタデータ） (2024-07-08T01:59:17Z)
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。 FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文参考訳（メタデータ） (2024-07-01T17:35:56Z)
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文参考訳（メタデータ） (2024-06-13T16:10:19Z)
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文参考訳（メタデータ） (2023-11-09T19:15:12Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文参考訳（メタデータ） (2023-06-29T12:39:58Z)
Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文参考訳（メタデータ） (2023-02-15T15:00:55Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-23T16:57:44Z)
Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。音は時間的にも内容的にも視覚信号と一致しているべきです。カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文参考訳（メタデータ） (2020-07-14T07:51:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。