論文の概要: Self-Supervised Audio-Visual Soundscape Stylization
- arxiv url: http://arxiv.org/abs/2409.14340v1
- Date: Sun, 22 Sep 2024 06:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:04:03.914128
- Title: Self-Supervised Audio-Visual Soundscape Stylization
- Title(参考訳): セルフ・スーパービジョンオーディオ・ビジュアル・サウンドスケープ・スティライゼーション
- Authors: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli,
- Abstract要約: 我々は、そのシーンから録音された音声-視覚条件の例から、異なるシーンで録音されたかのように入力音声を音声に操作する。
本モデルは,自然映像が繰り返し発生する音のイベントやテクスチャを含むという事実を活かして,自己監督を通じて学習する。
提案手法は,未ラベル・イン・ザ・ワイルドビデオによるトレーニングが成功し,付加的な視覚信号による予測能力の向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 22.734359700809126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech sounds convey a great deal of information about the scenes, resulting in a variety of effects ranging from reverberation to additional ambient sounds. In this paper, we manipulate input speech to sound as though it was recorded within a different scene, given an audio-visual conditional example recorded from that scene. Our model learns through self-supervision, taking advantage of the fact that natural video contains recurring sound events and textures. We extract an audio clip from a video and apply speech enhancement. We then train a latent diffusion model to recover the original speech, using another audio-visual clip taken from elsewhere in the video as a conditional hint. Through this process, the model learns to transfer the conditional example's sound properties to the input speech. We show that our model can be successfully trained using unlabeled, in-the-wild videos, and that an additional visual signal can improve its sound prediction abilities. Please see our project webpage for video results: https://tinglok.netlify.app/files/avsoundscape/
- Abstract(参考訳): 音声はシーンに関する情報を多く伝達し、残響から追加の環境音まで様々な効果をもたらす。
本稿では、そのシーンから録音された音声-視覚条件の例から、入力音声を異なるシーンで録音されたかのように操作する。
本モデルは,自然映像が繰り返し発生する音のイベントやテクスチャを含むという事実を活かして,自己監督を通じて学習する。
ビデオから音声クリップを抽出し、音声強調を行う。
次に、ビデオ内の他の場所から撮影した別の音声映像クリップを条件付きヒントとして、潜時拡散モデルを訓練し、元の音声を復元する。
このプロセスを通じて、モデルは条件付きサンプルの音響特性を入力音声に転送することを学ぶ。
提案手法は,未ラベル・イン・ザ・ワイルドビデオによるトレーニングが成功し,付加的な視覚信号による予測能力の向上が期待できることを示す。
ビデオの結果については、プロジェクトのWebページをご覧ください。
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Conditional Generation of Audio from Video via Foley Analogies [19.681437827280757]
デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されており、シーンの真の音とはかなり異なるかもしれない。
実音と異なる映像のサウンドトラックを作成するという課題に着想を得て,条件付きフォリーの問題を提案する。
人間の研究と自動評価指標を用いて,本モデルが映像から音声を生成できることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:59:45Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。