論文の概要: EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos
- arxiv url: http://arxiv.org/abs/2407.20592v1
- Date: Tue, 30 Jul 2024 06:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:09:21.283952
- Title: EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos
- Title(参考訳): EgoSonics: サイレントなエゴシックビデオのためのシンクロナイズドオーディオ
- Authors: Aashish Rai, Srinath Sridhar,
- Abstract要約: EgoSonicsは,サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり,同期された音声トラックを生成する手法である。
サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
- 参考スコア(独自算出の注目度): 3.6078215038168473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EgoSonics, a method to generate semantically meaningful and synchronized audio tracks conditioned on silent egocentric videos. Generating audio for silent egocentric videos could open new applications in virtual reality, assistive technologies, or for augmenting existing datasets. Existing work has been limited to domains like speech, music, or impact sounds and cannot easily capture the broad range of audio frequencies found in egocentric videos. EgoSonics addresses these limitations by building on the strength of latent diffusion models for conditioned audio synthesis. We first encode and process audio and video data into a form that is suitable for generation. The encoded data is used to train our model to generate audio tracks that capture the semantics of the input video. Our proposed SyncroNet builds on top of ControlNet to provide control signals that enables temporal synchronization to the synthesized audio. Extensive evaluations show that our model outperforms existing work in audio quality, and in our newly proposed synchronization evaluation method. Furthermore, we demonstrate downstream applications of our model in improving video summarization.
- Abstract(参考訳): EgoSonicsは,サイレントなエゴセントリックなビデオに条件付けされた意味論的に意味があり,同期された音声トラックを生成する手法である。
サイレントなエゴセントリックなビデオのためのオーディオを生成することは、仮想現実、補助技術、または既存のデータセットを拡大するための新しいアプリケーションを開く可能性がある。
既存の作品は、音声、音楽、衝撃音のような領域に限定されており、エゴセントリックなビデオで見られる幅広いオーディオ周波数を容易に捉えられない。
EgoSonicsは、条件付き音声合成のための潜時拡散モデルの強さに基づいてこれらの制限に対処する。
まず、音声および映像データを生成に適した形式にエンコードし、処理する。
符号化されたデータは、入力されたビデオのセマンティクスをキャプチャするオーディオトラックを生成するために、我々のモデルを訓練するために使用される。
提案するSyncroNetは、制御ネット上に構築され、合成音声の時間同期を可能にする制御信号を提供する。
大規模な評価では,本モデルが既存の音質よりも優れており,新たな同期評価手法が提案されている。
さらに,本モデルによる映像要約改善のダウンストリーム応用を実演する。
関連論文リスト
- Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
AV-Linkは、ビデオ・トゥ・オーディオとオーディオ・トゥ・ビデオ生成のための統合されたフレームワークである。
バックボーンビデオとオーディオ拡散モデル間の双方向情報交換を可能にするFusion Blockを提案する。
設計選択を評価し,同期・高品質な映像コンテンツを実現するための手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-12-19T18:57:21Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Synthesizing Audio from Silent Video using Sequence to Sequence Modeling [0.0]
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,ビデオから音声を生成する新しい手法を提案する。
本手法では3次元ベクトル量子変分オートエンコーダ(VQ-VAE)を用いて映像の空間的・時間的構造を捉える。
本モデルは,CCTV映像解析,サイレント映画復元,映像生成モデルなどの応用性の向上を目的としている。
論文 参考訳(メタデータ) (2024-04-25T22:19:42Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。