論文の概要: Sound Adversarial Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2202.10910v1
- Date: Tue, 22 Feb 2022 14:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 16:55:28.189360
- Title: Sound Adversarial Audio-Visual Navigation
- Title(参考訳): オーディオ・ビジュアルナビゲーション
- Authors: Yinfeng Yu, Wenbing Huang, Fuchun Sun, Changan Chen, Yikai Wang,
Xiaohong Liu
- Abstract要約: 既存の音声視覚ナビゲーション作業は、ターゲット音のみを含むクリーンな環境を前提としている。
本研究では,エージェントとゼロサムゲームを行う音響攻撃者が存在するような,音響的に複雑な環境を設計する。
攻撃者に対する一定の制約の下では、オーディオ視覚ナビゲーションにおける予期せぬ音響攻撃に対するエージェントの堅牢性を向上させることができる。
- 参考スコア(独自算出の注目度): 43.962774217305935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual navigation task requires an agent to find a sound source in a
realistic, unmapped 3D environment by utilizing egocentric audio-visual
observations. Existing audio-visual navigation works assume a clean environment
that solely contains the target sound, which, however, would not be suitable in
most real-world applications due to the unexpected sound noise or intentional
interference. In this work, we design an acoustically complex environment in
which, besides the target sound, there exists a sound attacker playing a
zero-sum game with the agent. More specifically, the attacker can move and
change the volume and category of the sound to make the agent suffer from
finding the sounding object while the agent tries to dodge the attack and
navigate to the goal under the intervention. Under certain constraints to the
attacker, we can improve the robustness of the agent towards unexpected sound
attacks in audio-visual navigation. For better convergence, we develop a joint
training mechanism by employing the property of a centralized critic with
decentralized actors. Experiments on two real-world 3D scan datasets, Replica,
and Matterport3D, verify the effectiveness and the robustness of the agent
trained under our designed environment when transferred to the clean
environment or the one containing sound attackers with random policy. Project:
\url{https://yyf17.github.io/SAAVN}.
- Abstract(参考訳): 音声視覚ナビゲーションタスクでは、エージェントがエゴセントリックなオーディオ視覚観察を利用して、現実的な3D環境下で音源を見つける必要がある。
既存の音声視覚ナビゲーションは、ターゲット音のみを含むクリーンな環境を前提としているが、予期せぬ音のノイズや意図的な干渉のため、ほとんどの現実世界の応用には適さない。
本研究では,ターゲット音に加えて,エージェントとゼロサムゲームを行う音響攻撃者が存在するような,音響的に複雑な環境を設計する。
より具体的には、攻撃者は音のボリュームとカテゴリを変えて、エージェントが音響オブジェクトを見つけるのに苦しむようにし、エージェントは攻撃を回避し、介入の下で目標に向かって移動しようとする。
攻撃者に対する一定の制約の下では、オーディオ視覚ナビゲーションにおける予期せぬ音響攻撃に対するエージェントの堅牢性を向上させることができる。
コンバージェンスを改善するために,集中型批評家の特性と分散型アクターを併用した共同学習機構を開発した。
実世界の2つの3DスキャンデータセットであるReplicaとMatterport3Dの実験は、クリーン環境やランダムなポリシーを持つ音響攻撃者を含む場合、設計環境下で訓練されたエージェントの有効性と堅牢性を検証する。
プロジェクト: \url{https://yyf17.github.io/saavn}
関連論文リスト
- Sonicverse: A Multisensory Simulation Platform for Embodied Household
Agents that See and Hear [65.33183123368804]
Sonicverseは、オーディオ・ビジュアル・シミュレーションを統合したマルチセンサー・シミュレーション・プラットフォームである。
音声と視覚の知覚を必要とするAIタスクを具現化する。
Sonicverseで訓練されたエージェントは、現実世界の環境で音声視覚ナビゲーションをうまく実行することができる。
論文 参考訳(メタデータ) (2023-06-01T17:24:01Z) - Towards Generalisable Audio Representations for Audio-Visual Navigation [18.738943602529805]
オーディオ視覚ナビゲーション(AVN)では、知的エージェントが複雑な3D環境下で常に音を出す物体にナビゲートする必要がある。
本稿では,音声エンコーダの正規化により,この課題に対処するための対照的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:00:07Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources
in Unmapped 3D Environments [0.0]
本稿では,AIエージェントが邪魔音やうるさい音の存在下で,未マップ環境において移動音源をキャッチしなければならない,新しい動的視覚ナビゲーション・ベンチマークを提案する。
提案手法は, 難聴音への一般化, うるさいシナリオに対する堅牢性などにより, 現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-01-12T03:08:03Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。