Fugu-MT 論文翻訳(概要): Conditional Generation of Audio from Video via Foley Analogies

論文の概要: Conditional Generation of Audio from Video via Foley Analogies

arxiv url: http://arxiv.org/abs/2304.08490v1
Date: Mon, 17 Apr 2023 17:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 13:54:40.013115
Title: Conditional Generation of Audio from Video via Foley Analogies
Title（参考訳）: フォリーアナロジによる映像からの音声の条件付き生成
Authors: Yuexi Du, Ziyang Chen, Justin Salamon, Bryan Russell and Andrew Owens
Abstract要約: デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されており、シーンの真の音とはかなり異なるかもしれない。実音と異なる映像のサウンドトラックを作成するという課題に着想を得て,条件付きフォリーの問題を提案する。人間の研究と自動評価指標を用いて,本モデルが映像から音声を生成できることを示す。
参考スコア（独自算出の注目度）: 19.681437827280757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The sound effects that designers add to videos are designed to convey a particular artistic effect and, thus, may be quite different from a scene's true sound. Inspired by the challenges of creating a soundtrack for a video that differs from its true sound, but that nonetheless matches the actions occurring on screen, we propose the problem of conditional Foley. We present the following contributions to address this problem. First, we propose a pretext task for training our model to predict sound for an input video clip using a conditional audio-visual clip sampled from another time within the same source video. Second, we propose a model for generating a soundtrack for a silent input video, given a user-supplied example that specifies what the video should "sound like". We show through human studies and automated evaluation metrics that our model successfully generates sound from video, while varying its output according to the content of a supplied example. Project site: https://xypb.github.io/CondFoleyGen/
Abstract（参考訳）: デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されているため、シーンの真の音とは全く異なるかもしれない。映像のサウンドトラック作成の難しさに触発されて,その真のサウンドとは違っているものの,画面上で発生する動作と一致しているのに対して,条件付きフォリーの問題を提案する。この問題に対処するための貢献は以下の通りである。まず,同じ音源映像内の別の時間からサンプリングされた条件付き音声・映像クリップを用いて,入力映像の音響予測をモデルで訓練するプリテキストタスクを提案する。第2に、ユーザが提供したビデオの“サウンド”を指定した例から、サイレントな入力ビデオのためのサウンドトラックを生成するモデルを提案する。人体実験と自動評価の結果から,提案モデルが映像から音声を生成するのに成功し,提供されたサンプルの内容に応じて出力が変化することを示す。プロジェクトサイト: https://xypb.github.io/condfoleygen/

関連論文リスト

Video-Guided Foley Sound Generation with Multimodal Controls [30.515964061350395]
MultiFoleyは、ビデオ誘導音声生成用に設計されたモデルである。テキスト、オーディオ、ビデオによるマルチモーダルコンディショニングをサポートする。私たちのモデルの重要な新規性は、低音質のインターネットビデオデータセットを共同でトレーニングすることにあります。
論文参考訳（メタデータ） (2024-11-26T18:59:58Z)
Self-Supervised Audio-Visual Soundscape Stylization [22.734359700809126]
我々は、そのシーンから録音された音声-視覚条件の例から、異なるシーンで録音されたかのように入力音声を音声に操作する。本モデルは,自然映像が繰り返し発生する音のイベントやテクスチャを含むという事実を活かして,自己監督を通じて学習する。提案手法は,未ラベル・イン・ザ・ワイルドビデオによるトレーニングが成功し,付加的な視覚信号による予測能力の向上が期待できることを示す。
論文参考訳（メタデータ） (2024-09-22T06:57:33Z)
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文参考訳（メタデータ） (2024-06-13T16:10:19Z)
SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文参考訳（メタデータ） (2023-10-23T18:01:36Z)
Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文参考訳（メタデータ） (2023-07-31T11:39:05Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。音は時間的にも内容的にも視覚信号と一致しているべきです。カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文参考訳（メタデータ） (2020-07-14T07:51:06Z)
Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文参考訳（メタデータ） (2020-01-15T09:54:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。