論文の概要: SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
- arxiv url: http://arxiv.org/abs/2310.15247v1
- Date: Mon, 23 Oct 2023 18:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:22:27.858351
- Title: SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
- Title(参考訳): SyncFusion:マルチモーダルオンセット同期ビデオ音声合成
- Authors: Marco Comunit\`a, Riccardo F. Gramaccioni, Emilian Postolache,
Emanuele Rodol\`a, Danilo Comminiello, Joshua D. Reiss
- Abstract要約: 音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
- 参考スコア(独自算出の注目度): 9.118448725265669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound design involves creatively selecting, recording, and editing sound
effects for various media like cinema, video games, and virtual/augmented
reality. One of the most time-consuming steps when designing sound is
synchronizing audio with video. In some cases, environmental recordings from
video shoots are available, which can aid in the process. However, in video
games and animations, no reference audio exists, requiring manual annotation of
event timings from the video. We propose a system to extract repetitive actions
onsets from a video, which are then used - in conjunction with audio or textual
embeddings - to condition a diffusion model trained to generate a new
synchronized sound effects audio track. In this way, we leave complete creative
control to the sound designer while removing the burden of synchronization with
video. Furthermore, editing the onset track or changing the conditioning
embedding requires much less effort than editing the audio track itself,
simplifying the sonification process. We provide sound examples, source code,
and pretrained models to faciliate reproducibility
- Abstract(参考訳): サウンドデザインには、映画、ビデオゲーム、バーチャル/拡張現実といった様々なメディアのサウンドエフェクトを創造的に選択、記録、編集することが含まれる。
音を設計する際に最も時間がかかるステップは、音声とビデオの同期です。
一部のケースでは、ビデオ撮影からの環境記録が利用可能であり、このプロセスに役立つ。
しかし、ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,映像からの繰り返し動作を音声やテキストの埋め込みと組み合わせて抽出し,新しい同期音響効果音声トラックを生成するように訓練した拡散モデルを条件付けるシステムを提案する。
このようにして、ビデオとの同期の負担を取り除きながら、完全な創造的制御を音響デザイナーに任せる。
さらに、オンセットトラックの編集やコンディショニング埋め込みの変更は、オーディオトラック自体の編集よりもはるかに手間がかかり、音化処理が簡単になる。
再現性を高めるために、音の例、ソースコード、事前訓練されたモデルを提供する。
関連論文リスト
- Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Conditional Generation of Audio from Video via Foley Analogies [19.681437827280757]
デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されており、シーンの真の音とはかなり異なるかもしれない。
実音と異なる映像のサウンドトラックを作成するという課題に着想を得て,条件付きフォリーの問題を提案する。
人間の研究と自動評価指標を用いて,本モデルが映像から音声を生成できることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:59:45Z) - Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文 参考訳(メタデータ) (2023-04-13T20:56:53Z) - VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement [68.42632589736881]
ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
論文 参考訳(メタデータ) (2022-11-19T11:12:01Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation [60.3813545478593]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Soundify: Matching Sound Effects to Video [3.933782896303837]
本稿では,映像と音声のマッチングを支援するシステムSoundifyについて述べる。
ビデオが与えられたら、Soundifyは一致した音を特定し、ビデオに音を同期させ、パンニングとボリュームを動的に調整して空間オーディオを作成する。
論文 参考訳(メタデータ) (2021-12-17T19:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。