論文の概要: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2406.09272v2
- Date: Thu, 20 Jun 2024 17:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:17:00.193528
- Title: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
- Title(参考訳): Action2Sound:エゴセントリックビデオからのアクション音のアンビエント・アウェア・ジェネレーション
- Authors: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman,
- Abstract要約: 環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
そこで本研究では,Wild トレーニングビデオの環境背景音からアクション音を遠ざけるための,新しいオーディオコンディショニング機構を考案した。
我々の研究は、自然の背景音を持つ未処理クリップからトレーニングを受けたにもかかわらず、観察された映像コンテンツに忠実に焦点を合わせる最初のものである。
- 参考スコア(独自算出の注目度): 87.32349247938136
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating realistic audio for human interactions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets Ego4D and EPIC-KITCHENS. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our work is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
- Abstract(参考訳): 人間のインタラクションのための現実的なオーディオを生成することは、映画や仮想現実ゲームのためのサウンドエフェクトを作成するなど、多くのアプリケーションにとって重要である。
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定するが、多くの音は画面外で発生し、視覚とは全く一致しない。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
本研究では,前庭動作音を周囲の背景音から遠ざけるための新しい音調和機構を考案した。
新たなサイレントビデオが提供されると、我々のモデルは検索拡張生成を用いて、視覚コンテンツを意味的にも時間的にも一致させるオーディオを生成する。
我々は,Ego4D と EPIC-KITCHENS の2つのビデオデータセット上で,我々のモデルを訓練し,評価する。
我々のモデルは,既存の手法より優れており,周囲の音を制御可能な生成が可能であり,コンピュータグラフィックスゲームクリップへの一般化の約束も示している。
全体として、自然の背景音を持つ未処理クリップからトレーニングを受けたにもかかわらず、観察された視覚コンテンツに忠実に焦点を合わせるのは、我々の研究が初めてである。
関連論文リスト
- SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - An Initial Exploration: Learning to Generate Realistic Audio for Silent
Video [0.0]
本研究では,映像を自然なシーケンスで観察し,それに伴うリアルな音声を生成するフレームワークを開発する。
特に、他の入力に条件付けされた現実的な音声生成技術の進歩により実現可能であると考える理由がある。
変換器をベースとしたアーキテクチャが最も有望な結果が得られ、低頻度と視覚パターンを効果的に一致させる。
論文 参考訳(メタデータ) (2023-08-23T20:08:56Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Conditional Generation of Audio from Video via Foley Analogies [19.681437827280757]
デザイナーがビデオに付加する音響効果は、特定の芸術効果を伝えるように設計されており、シーンの真の音とはかなり異なるかもしれない。
実音と異なる映像のサウンドトラックを作成するという課題に着想を得て,条件付きフォリーの問題を提案する。
人間の研究と自動評価指標を用いて,本モデルが映像から音声を生成できることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:59:45Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。