論文の概要: Multi-goal Audio-visual Navigation using Sound Direction Map
- arxiv url: http://arxiv.org/abs/2308.00219v1
- Date: Tue, 1 Aug 2023 01:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:52:09.696047
- Title: Multi-goal Audio-visual Navigation using Sound Direction Map
- Title(参考訳): 音方向マップを用いた多方向視聴覚ナビゲーション
- Authors: Haru Kondoh and Asako Kanezaki
- Abstract要約: マルチゴール音声視覚ナビゲーションのための新しいフレームワークを提案する。
この研究は、マルチゴールオーディオ視覚ナビゲーションが、音源を分離する暗黙的な必要性の難しさを示唆している。
本研究では,複数の音源を学習的手法で動的に局所化するSDM法を提案する。
- 参考スコア(独自算出の注目度): 10.152838128195468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, there has been a great deal of research on
navigation tasks in indoor environments using deep reinforcement learning
agents. Most of these tasks use only visual information in the form of
first-person images to navigate to a single goal. More recently, tasks that
simultaneously use visual and auditory information to navigate to the sound
source and even navigation tasks with multiple goals instead of one have been
proposed. However, there has been no proposal for a generalized navigation task
combining these two types of tasks and using both visual and auditory
information in a situation where multiple sound sources are goals. In this
paper, we propose a new framework for this generalized task: multi-goal
audio-visual navigation. We first define the task in detail, and then we
investigate the difficulty of the multi-goal audio-visual navigation task
relative to the current navigation tasks by conducting experiments in various
situations. The research shows that multi-goal audio-visual navigation has the
difficulty of the implicit need to separate the sources of sound. Next, to
mitigate the difficulties in this new task, we propose a method named sound
direction map (SDM), which dynamically localizes multiple sound sources in a
learning-based manner while making use of past memories. Experimental results
show that the use of SDM significantly improves the performance of multiple
baseline methods, regardless of the number of goals.
- Abstract(参考訳): 過去数年間、深層強化学習エージェントを用いた屋内環境におけるナビゲーションタスクに関する研究が盛んに行われている。
これらのタスクのほとんどは、一人称イメージの形式で視覚情報のみを使用して、1つの目標にナビゲートする。
近年では、視覚情報と聴覚情報を同時に使用して音源へのナビゲートを行うタスクや、複数の目標を持つナビゲーションタスクも提案されている。
しかし,複数の音源が目標である状況において,これらの2種類のタスクを組み合わせて視覚情報と聴覚情報を併用する汎用ナビゲーションタスクは提案されていない。
本稿では,この汎用タスクのための新しいフレームワークであるマルチゴールオーディオ・ビジュアルナビゲーションを提案する。
まず, 課題を詳細に定義し, 様々な状況で実験を行い, 現行のナビゲーションタスクと比較して, 複数方向の音声・視覚ナビゲーションタスクの難易度について検討する。
本研究は,複数方向の視聴覚ナビゲーションにおいて,音源の分離が暗黙的に必要であることを示す。
次に,この課題の難しさを軽減するために,過去の記憶を生かしながら,複数の音源を動的に局所化する音方向マップ (SDM) を提案する。
実験の結果,sdmの使用により,目標数に関わらず,複数のベースラインメソッドのパフォーマンスが著しく向上することがわかった。
関連論文リスト
- SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Towards Generalisable Audio Representations for Audio-Visual Navigation [18.738943602529805]
オーディオ視覚ナビゲーション(AVN)では、知的エージェントが複雑な3D環境下で常に音を出す物体にナビゲートする必要がある。
本稿では,音声エンコーダの正規化により,この課題に対処するための対照的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:00:07Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation [23.877609358505268]
最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。
本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。
様々なエージェントモデルがナビゲーションタスクの複雑度をまたいでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2020-12-07T18:42:38Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。