論文の概要: AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent
Videos with Deep Learning
- arxiv url: http://arxiv.org/abs/2002.10981v1
- Date: Fri, 21 Feb 2020 09:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 01:20:51.785990
- Title: AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent
Videos with Deep Learning
- Title(参考訳): AutoFoley: ディープラーニングによるサイレントビデオのための同期サウンドトラックの人工合成
- Authors: Sanchita Ghose, John J. Prevost
- Abstract要約: ビデオの代表的なオーディオトラックを合成するのに使用できる、完全に自動化されたディープラーニングツールであるAutoFoleyを紹介する。
AutoFoleyは、ビデオに関連付けられた対応するオーディオファイルがないアプリケーションや、重要なシナリオを特定する必要がある場合でも使用できる。
実験により, 合成した音は, 関連した視覚入力の正確な時間同期でリアルに表現されていることがわかった。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In movie productions, the Foley Artist is responsible for creating an overlay
soundtrack that helps the movie come alive for the audience. This requires the
artist to first identify the sounds that will enhance the experience for the
listener thereby reinforcing the Directors's intention for a given scene. In
this paper, we present AutoFoley, a fully-automated deep learning tool that can
be used to synthesize a representative audio track for videos. AutoFoley can be
used in the applications where there is either no corresponding audio file
associated with the video or in cases where there is a need to identify
critical scenarios and provide a synthesized, reinforced soundtrack. An
important performance criterion of the synthesized soundtrack is to be
time-synchronized with the input video, which provides for a realistic and
believable portrayal of the synthesized sound. Unlike existing sound prediction
and generation architectures, our algorithm is capable of precise recognition
of actions as well as inter-frame relations in fast moving video clips by
incorporating an interpolation technique and Temporal Relationship Networks
(TRN). We employ a robust multi-scale Recurrent Neural Network (RNN) associated
with a Convolutional Neural Network (CNN) for a better understanding of the
intricate input-to-output associations over time. To evaluate AutoFoley, we
create and introduce a large scale audio-video dataset containing a variety of
sounds frequently used as Foley effects in movies. Our experiments show that
the synthesized sounds are realistically portrayed with accurate temporal
synchronization of the associated visual inputs. Human qualitative testing of
AutoFoley show over 73% of the test subjects considered the generated
soundtrack as original, which is a noteworthy improvement in cross-modal
research in sound synthesis.
- Abstract(参考訳): 映画プロダクションでは、フォリー・アーティストがオーバレイ・サウンドトラックを作成し、観客のために映画が生き残るのを助ける。
これにより、アーティストはまずリスナーの体験を高める音を識別し、そのシーンに対する監督の意図を強化する必要がある。
本稿では,ビデオの代表的な音声トラックを合成するのに使用できる,完全自動ディープラーニングツールAutoFoleyを提案する。
AutoFoleyは、ビデオに関連する対応するオーディオファイルが存在しないアプリケーションや、重要なシナリオを特定し、合成され強化されたサウンドトラックを提供する必要があるアプリケーションで使用することができる。
合成サウンドトラックの重要な演奏基準は、入力されたビデオと時間同期することであり、合成サウンドをリアルで信じられないような描写を可能にする。
既存の音響予測や生成アーキテクチャとは異なり,我々のアルゴリズムは,高速動画クリップにおける動作の正確な認識とフレーム間関係を補間技術と時間関係ネットワーク(TRN)を組み込むことで実現している。
我々は,畳み込みニューラルネットワーク(cnn)に関連付けられたロバストなマルチスケールリカレントニューラルネットワーク(rnn)を用いて,時間経過に伴う複雑な入出力関係の理解を深める。
AutoFoleyを評価するために,映画におけるFoley効果として頻繁に使用される様々な音を含む大規模オーディオ映像データセットを作成し,導入する。
実験により、合成音は、関連する視覚入力の正確な時間同期によって現実的に表現されることを示した。
オートフォーリーの質的テストでは、テスト対象者の73%以上が生成したサウンドトラックをオリジナルと考えており、これは音響合成におけるクロスモーダル研究において注目すべき改善である。
関連論文リスト
- Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video [0.0]
本研究では,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するフレームワークを開発する。
特に、他の入力に条件付けされた現実的な音声生成技術の進歩により実現可能であると考える理由がある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ、低頻度と視覚パターンを効果的に一致させる。
論文 参考訳(メタデータ) (2023-08-23T20:08:56Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z) - Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。
本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文 参考訳(メタデータ) (2020-06-23T00:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。