論文の概要: Conditional Generation of Audio from Video via Foley Analogies
- arxiv url: http://arxiv.org/abs/2304.08490v1
- Date: Mon, 17 Apr 2023 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 13:54:40.013115
- Title: Conditional Generation of Audio from Video via Foley Analogies
- Title(参考訳): フォリーアナロジによる映像からの音声の条件付き生成
- Authors: Yuexi Du, Ziyang Chen, Justin Salamon, Bryan Russell and Andrew Owens
- Abstract要約: デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されており、シーンの真の音とはかなり異なるかもしれない。
実音と異なる映像のサウンドトラックを作成するという課題に着想を得て,条件付きフォリーの問題を提案する。
人間の研究と自動評価指標を用いて,本モデルが映像から音声を生成できることを示す。
- 参考スコア(独自算出の注目度): 19.681437827280757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sound effects that designers add to videos are designed to convey a
particular artistic effect and, thus, may be quite different from a scene's
true sound. Inspired by the challenges of creating a soundtrack for a video
that differs from its true sound, but that nonetheless matches the actions
occurring on screen, we propose the problem of conditional Foley. We present
the following contributions to address this problem. First, we propose a
pretext task for training our model to predict sound for an input video clip
using a conditional audio-visual clip sampled from another time within the same
source video. Second, we propose a model for generating a soundtrack for a
silent input video, given a user-supplied example that specifies what the video
should "sound like". We show through human studies and automated evaluation
metrics that our model successfully generates sound from video, while varying
its output according to the content of a supplied example. Project site:
https://xypb.github.io/CondFoleyGen/
- Abstract(参考訳): デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されているため、シーンの真の音とは全く異なるかもしれない。
映像のサウンドトラック作成の難しさに触発されて,その真のサウンドとは違っているものの,画面上で発生する動作と一致しているのに対して,条件付きフォリーの問題を提案する。
この問題に対処するための貢献は以下の通りである。
まず,同じ音源映像内の別の時間からサンプリングされた条件付き音声・映像クリップを用いて,入力映像の音響予測をモデルで訓練するプリテキストタスクを提案する。
第2に、ユーザが提供したビデオの“サウンド”を指定した例から、サイレントな入力ビデオのためのサウンドトラックを生成するモデルを提案する。
人体実験と自動評価の結果から,提案モデルが映像から音声を生成するのに成功し,提供されたサンプルの内容に応じて出力が変化することを示す。
プロジェクトサイト: https://xypb.github.io/condfoleygen/
関連論文リスト
- SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video [0.0]
本研究では,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するフレームワークを開発する。
特に、他の入力に条件付けされた現実的な音声生成技術の進歩により実現可能であると考える理由がある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ、低頻度と視覚パターンを効果的に一致させる。
論文 参考訳(メタデータ) (2023-08-23T20:08:56Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - VarietySound: Timbre-Controllable Video to Sound Generation via
Unsupervised Information Disentanglement [68.42632589736881]
ビデオ入力と参照音声サンプルを与えられた特定の音色で発音する作業を行う。
この課題を解決するために,対象の音声を時間情報,音響情報,背景情報という3つの構成要素にまとめる。
提案手法は,ビデオ中のイベントと高音質の音声サンプルを生成し,参照音声と高音質の類似性を示す。
論文 参考訳(メタデータ) (2022-11-19T11:12:01Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Soundify: Matching Sound Effects to Video [3.933782896303837]
本稿では,映像と音声のマッチングを支援するシステムSoundifyについて述べる。
ビデオが与えられたら、Soundifyは一致した音を特定し、ビデオに音を同期させ、パンニングとボリュームを動的に調整して空間オーディオを作成する。
論文 参考訳(メタデータ) (2021-12-17T19:22:01Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。