論文の概要: Active Audio-Visual Separation of Dynamic Sound Sources
- arxiv url: http://arxiv.org/abs/2202.00850v1
- Date: Wed, 2 Feb 2022 02:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 14:17:51.043505
- Title: Active Audio-Visual Separation of Dynamic Sound Sources
- Title(参考訳): 動的音源のアクティブ・オーディオ・ビジュアル分離
- Authors: Sagnik Majumder, Ziad Al-Halah, Kristen Grauman
- Abstract要約: 本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
- 参考スコア(独自算出の注目度): 93.97385339354318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore active audio-visual separation for dynamic sound sources, where an
embodied agent moves intelligently in a 3D environment to continuously isolate
the time-varying audio stream being emitted by an object of interest. The agent
hears a mixed stream of multiple time-varying audio sources (e.g., multiple
people conversing and a band playing music at a noisy party). Given a limited
time budget, it needs to extract the target sound using egocentric audio-visual
observations. We propose a reinforcement learning agent equipped with a novel
transformer memory that learns motion policies to control its camera and
microphone to recover the dynamic target audio, improving its own estimates for
past timesteps via self-attention. Using highly realistic acoustic SoundSpaces
simulations in real-world scanned Matterport3D environments, we show that our
model is able to learn efficient behavior to carry out continuous separation of
a time-varying audio target. Project:
https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/.
- Abstract(参考訳): 本研究では,3次元環境においてエージェントがインテリジェントに移動し,興味の対象から出力される時間変化オーディオストリームを連続的に分離する動的音源のアクティブな視覚的分離について検討する。
エージェントは、複数の時間変化オーディオソース(例えば、複数の人が会話し、うるさいパーティーで音楽を演奏するバンド)の混合ストリームを聴く。
時間予算が限られているため、エゴセントリックな視聴覚観測を用いて対象音を抽出する必要がある。
本稿では,カメラとマイクロホンを制御して動的ターゲット音声を再生する動作ポリシーを学習し,自己注意による過去の時間経過を推定する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
実世界スキャニングされたmatterport3d環境における高度にリアルな音響音空間シミュレーションを用いて,我々は,時間変化のある音声ターゲットを連続的に分離する効率的な動作を学習できることを示す。
プロジェクト: https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/。
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments [0.0]
本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-01-12T03:08:03Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。