論文の概要: SoundBrush: Sound as a Brush for Visual Scene Editing
- arxiv url: http://arxiv.org/abs/2501.00645v1
- Date: Tue, 31 Dec 2024 20:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:15.426594
- Title: SoundBrush: Sound as a Brush for Visual Scene Editing
- Title(参考訳): SoundBrush:ビジュアルシーン編集のためのブラシ
- Authors: Kim Sung-Bin, Kim Jun-Seong, Junseok Ko, Yewon Kim, Tae-Hyun Oh,
- Abstract要約: SoundBrushは、視覚シーンの編集と操作にサウンドをブラシとして使用するモデルである。
我々のフレームワークは3Dシーンを編集できるように拡張することができ、音駆動の3Dシーン操作を容易にする。
- 参考スコア(独自算出の注目度): 18.263162622783607
- License:
- Abstract: We propose SoundBrush, a model that uses sound as a brush to edit and manipulate visual scenes. We extend the generative capabilities of the Latent Diffusion Model (LDM) to incorporate audio information for editing visual scenes. Inspired by existing image-editing works, we frame this task as a supervised learning problem and leverage various off-the-shelf models to construct a sound-paired visual scene dataset for training. This richly generated dataset enables SoundBrush to learn to map audio features into the textual space of the LDM, allowing for visual scene editing guided by diverse in-the-wild sound. Unlike existing methods, SoundBrush can accurately manipulate the overall scenery or even insert sounding objects to best match the audio inputs while preserving the original content. Furthermore, by integrating with novel view synthesis techniques, our framework can be extended to edit 3D scenes, facilitating sound-driven 3D scene manipulation. Demos are available at https://soundbrush.github.io/.
- Abstract(参考訳): 本研究では,音をブラシとして使用して視覚シーンを編集・操作するモデルであるSoundBrushを提案する。
視覚シーンの編集に音声情報を組み込むため,LDM(Latent Diffusion Model)の生成能力を拡張した。
既存の画像編集作業に触発されて、私たちはこのタスクを教師付き学習問題とみなし、様々なオフザシェルフモデルを活用して、トレーニングのためのサウンドペア付きビジュアルシーンデータセットを構築する。
このリッチに生成されたデータセットは、SoundBrushがLDMのテキスト空間にオーディオ機能をマッピングすることを学ぶことを可能にする。
既存の方法とは異なり、SoundBrushはシーン全体を正確に操作したり、サウンドオブジェクトを挿入したりできる。
さらに、新しいビュー合成技術を統合することで、我々のフレームワークを拡張して3Dシーンを編集し、音駆動の3Dシーン操作を容易にすることができる。
デモはhttps://soundbrush.github.io/.comで公開されている。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - Self-Supervised Audio-Visual Soundscape Stylization [22.734359700809126]
我々は、そのシーンから録音された音声-視覚条件の例から、異なるシーンで録音されたかのように入力音声を音声に操作する。
本モデルは,自然映像が繰り返し発生する音のイベントやテクスチャを含むという事実を活かして,自己監督を通じて学習する。
提案手法は,未ラベル・イン・ザ・ワイルドビデオによるトレーニングが成功し,付加的な視覚信号による予測能力の向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-22T06:57:33Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - Soundini: Sound-Guided Diffusion for Natural Video Editing [29.231939578629785]
ゼロショット設定で映像の特定の領域に音声誘導視覚効果を加える手法を提案する。
本研究は,音の特殊な特性を持つ様々な音源からの音声誘導自然な映像編集を初めて行ったものである。
論文 参考訳(メタデータ) (2023-04-13T20:56:53Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Learning Visual Styles from Audio-Visual Associations [21.022027778790978]
本稿では,未ラベル音声視覚データから視覚スタイルを学習する手法を提案する。
我々のモデルは音に合わせてシーンのテクスチャを操作することを学ぶ。
音声は画像を操作するための直感的な表現であることを示す。
論文 参考訳(メタデータ) (2022-05-10T17:57:07Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。