論文の概要: Soundini: Sound-Guided Diffusion for Natural Video Editing
- arxiv url: http://arxiv.org/abs/2304.06818v1
- Date: Thu, 13 Apr 2023 20:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 15:22:16.893337
- Title: Soundini: Sound-Guided Diffusion for Natural Video Editing
- Title(参考訳): soundini:自然映像編集のための音声誘導拡散
- Authors: Seung Hyun Lee, Sieun Kim, Innfarn Yoo, Feng Yang, Donghyeon Cho,
Youngseo Kim, Huiwen Chang, Jinkyu Kim, Sangpil Kim
- Abstract要約: ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
- 参考スコア(独自算出の注目度): 29.231939578629785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a method for adding sound-guided visual effects to specific
regions of videos with a zero-shot setting. Animating the appearance of the
visual effect is challenging because each frame of the edited video should have
visual changes while maintaining temporal consistency. Moreover, existing video
editing solutions focus on temporal consistency across frames, ignoring the
visual style variations over time, e.g., thunderstorm, wave, fire crackling. To
overcome this limitation, we utilize temporal sound features for the dynamic
style. Specifically, we guide denoising diffusion probabilistic models with an
audio latent representation in the audio-visual latent space. To the best of
our knowledge, our work is the first to explore sound-guided natural video
editing from various sound sources with sound-specialized properties, such as
intensity, timbre, and volume. Additionally, we design optical flow-based
guidance to generate temporally consistent video frames, capturing the
pixel-wise relationship between adjacent frames. Experimental results show that
our method outperforms existing video editing techniques, producing more
realistic visual effects that reflect the properties of sound. Please visit our
page: https://kuai-lab.github.io/soundini-gallery/.
- Abstract(参考訳): ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
編集されたビデオの各フレームは、時間的一貫性を維持しながら視覚的変化を持つ必要があるため、視覚効果の出現をアニメーションすることは困難である。
さらに、既存のビデオ編集ソリューションはフレーム間の時間的一貫性に重点を置いており、例えば雷雨、波、き裂などの視覚的スタイルの変化を無視している。
この制限を克服するために、動的スタイルの時間音特徴を利用する。
具体的には,聴覚・視覚潜在空間における音響潜在表現を用いた拡散確率モデルについて解説する。
我々の知る限り、我々の研究は、音強度、音色、音量などの音質特性を持つ様々な音源からの音声誘導自然な映像編集を初めて探求するものである。
また,隣接フレーム間の画素間関係をキャプチャし,時間的に一貫性のある映像フレームを生成するために,光フローに基づくガイダンスを設計する。
実験の結果,提案手法は既存の映像編集技術よりも優れており,音の特性を反映したよりリアルな視覚効果が得られた。
ご覧ください。https://kuai-lab.github.io/soundini-gallery/。
関連論文リスト
- Self-Supervised Audio-Visual Soundscape Stylization [22.734359700809126]
我々は、そのシーンから録音された音声-視覚条件の例から、異なるシーンで録音されたかのように入力音声を音声に操作する。
本モデルは,自然映像が繰り返し発生する音のイベントやテクスチャを含むという事実を活かして,自己監督を通じて学習する。
提案手法は,未ラベル・イン・ザ・ワイルドビデオによるトレーニングが成功し,付加的な視覚信号による予測能力の向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-22T06:57:33Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video [0.0]
本研究では,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するフレームワークを開発する。
特に、他の入力に条件付けされた現実的な音声生成技術の進歩により実現可能であると考える理由がある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ、低頻度と視覚パターンを効果的に一致させる。
論文 参考訳(メタデータ) (2023-08-23T20:08:56Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。