論文の概要: An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video
- arxiv url: http://arxiv.org/abs/2308.12408v1
- Date: Wed, 23 Aug 2023 20:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:27:21.018485
- Title: An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video
- Title(参考訳): 最初の探究:サイレントビデオのためのリアルな音声を生成するための学習
- Authors: Matthew Martel, Jackson Wagner
- Abstract要約: 本研究では,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するフレームワークを開発する。
特に、他の入力に条件付けされた現実的な音声生成技術の進歩により実現可能であると考える理由がある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ、低頻度と視覚パターンを効果的に一致させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating realistic audio effects for movies and other media is a
challenging task that is accomplished today primarily through physical
techniques known as Foley art. Foley artists create sounds with common objects
(e.g., boxing gloves, broken glass) in time with video as it is playing to
generate captivating audio tracks. In this work, we aim to develop a
deep-learning based framework that does much the same - observes video in it's
natural sequence and generates realistic audio to accompany it. Notably, we
have reason to believe this is achievable due to advancements in realistic
audio generation techniques conditioned on other inputs (e.g., Wavenet
conditioned on text). We explore several different model architectures to
accomplish this task that process both previously-generated audio and video
context. These include deep-fusion CNN, dilated Wavenet CNN with visual
context, and transformer-based architectures. We find that the
transformer-based architecture yields the most promising results, matching
low-frequencies to visual patterns effectively, but failing to generate more
nuanced waveforms.
- Abstract(参考訳): 映画やその他のメディアのリアルなオーディオ効果を生成することは、主にフォーリーアートとして知られる物理的な技術によって今日達成される挑戦的なタスクである。
フォーリーアーティストは、共通のオブジェクト(例えば、ボクシンググローブ、壊れたガラスなど)を再生中に再生するときにビデオに合わせるように音を作る。
本研究は,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するディープラーニングベースのフレームワークを開発することを目的としている。
特に、他の入力に条件付けされた現実的な音声生成技術(例えば、テキストに条件付けされたWavenet)の進歩により実現可能であると考える理由がある。
これまでに生成されたオーディオとビデオの両方のコンテキストを処理するこのタスクを達成するために、いくつかの異なるモデルアーキテクチャを探索する。
深層融合CNN、ビジュアルコンテキストを備えた拡張Wavenet CNN、トランスフォーマーベースのアーキテクチャなどがある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ,低頻度と視覚パターンを効果的に一致させることができた。
関連論文リスト
- Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。
音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z) - AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent
Videos with Deep Learning [5.33024001730262]
ビデオの代表的なオーディオトラックを合成するのに使用できる、完全に自動化されたディープラーニングツールであるAutoFoleyを紹介する。
AutoFoleyは、ビデオに関連付けられた対応するオーディオファイルがないアプリケーションや、重要なシナリオを特定する必要がある場合でも使用できる。
実験により, 合成した音は, 関連した視覚入力の正確な時間同期でリアルに表現されていることがわかった。
論文 参考訳(メタデータ) (2020-02-21T09:08:28Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。