論文の概要: Move2Hear: Active Audio-Visual Source Separation
- arxiv url: http://arxiv.org/abs/2105.07142v1
- Date: Sat, 15 May 2021 04:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:54:15.205511
- Title: Move2Hear: Active Audio-Visual Source Separation
- Title(参考訳): Move2Hear: アクティブオーディオとビジュアルのソース分離
- Authors: Sagnik Majumder, Ziad Al-Halah, Kristen Grauman
- Abstract要約: 対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
- 参考スコア(独自算出の注目度): 90.16327303008224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the active audio-visual source separation problem, where an
agent must move intelligently in order to better isolate the sounds coming from
an object of interest in its environment. The agent hears multiple audio
sources simultaneously (e.g., a person speaking down the hall in a noisy
household) and must use its eyes and ears to automatically separate out the
sounds originating from the target object within a limited time budget. Towards
this goal, we introduce a reinforcement learning approach that trains movement
policies controlling the agent's camera and microphone placement over time,
guided by the improvement in predicted audio separation quality. We demonstrate
our approach in scenarios motivated by both augmented reality (system is
already co-located with the target object) and mobile robotics (agent begins
arbitrarily far from the target object). Using state-of-the-art realistic
audio-visual simulations in 3D environments, we demonstrate our model's ability
to find minimal movement sequences with maximal payoff for audio source
separation. Project: http://vision.cs.utexas.edu/projects/move2hear.
- Abstract(参考訳): 本稿では,エージェントが環境への関心の対象から発せられる音をよりよく分離するために,エージェントがインテリジェントに移動しなければならないアクティブオーディオ視覚音源分離問題を紹介する。
エージェントは、複数のオーディオソースを同時に聞き取り(例えば、騒がしい家庭でホールを下る人)、その目と耳を使ってターゲットオブジェクトから発する音を自動的に、限られた時間予算内で切り離さなければならない。
そこで本稿では,エージェントのカメラとマイクロホンの位置を時間とともに制御する動作ポリシーをトレーニングする強化学習手法を提案する。
我々は、拡張現実(システムがすでにターゲットオブジェクトと同一位置にある)とモバイルロボティクス(エージェントがターゲットオブジェクトから任意に遠ざかる)の両方に動機づけられたシナリオで、我々のアプローチを実証する。
最先端の3次元環境におけるリアルな映像シミュレーションを用いて,音源分離のための最小限の移動列を見つける能力を示す。
プロジェクト: http://vision.cs.utexas.edu/projects/move2hear
関連論文リスト
- Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Sound Adversarial Audio-Visual Navigation [43.962774217305935]
既存の音声視覚ナビゲーション作業は、ターゲット音のみを含むクリーンな環境を前提としている。
本研究では,エージェントとゼロサムゲームを行う音響攻撃者が存在するような,音響的に複雑な環境を設計する。
攻撃者に対する一定の制約の下では、オーディオ視覚ナビゲーションにおける予期せぬ音響攻撃に対するエージェントの堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2022-02-22T14:19:42Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。