論文の概要: AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments
- arxiv url: http://arxiv.org/abs/2210.07940v1
- Date: Fri, 14 Oct 2022 16:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 14:48:30.605655
- Title: AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments
- Title(参考訳): avlen: 3次元環境における音声・視覚言語エンボディドナビゲーション
- Authors: Sudipta Paul and Amit K. Roy-Chowdhury and Anoop Cherian
- Abstract要約: AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
- 参考スコア(独自算出の注目度): 60.98664330268192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen embodied visual navigation advance in two distinct
directions: (i) in equipping the AI agent to follow natural language
instructions, and (ii) in making the navigable world multimodal, e.g.,
audio-visual navigation. However, the real world is not only multimodal, but
also often complex, and thus in spite of these advances, agents still need to
understand the uncertainty in their actions and seek instructions to navigate.
To this end, we present AVLEN~ -- an interactive agent for
Audio-Visual-Language Embodied Navigation. Similar to audio-visual navigation
tasks, the goal of our embodied agent is to localize an audio event via
navigating the 3D visual world; however, the agent may also seek help from a
human (oracle), where the assistance is provided in free-form natural language.
To realize these abilities, AVLEN uses a multimodal hierarchical reinforcement
learning backbone that learns: (a) high-level policies to choose either
audio-cues for navigation or to query the oracle, and (b) lower-level policies
to select navigation actions based on its audio-visual and language inputs. The
policies are trained via rewarding for the success on the navigation task while
minimizing the number of queries to the oracle. To empirically evaluate AVLEN,
we present experiments on the SoundSpaces framework for semantic audio-visual
navigation tasks. Our results show that equipping the agent to ask for help
leads to a clear improvement in performance, especially in challenging cases,
e.g., when the sound is unheard during training or in the presence of
distractor sounds.
- Abstract(参考訳): 近年、視覚ナビゲーションの進歩は2つの異なる方向を向いている。
(i)自然言語指示に従うためにaiエージェントを装備する場合、及び
(ii) ナビゲーション可能な世界をマルチモーダル(例えばオーディオ視覚ナビゲーション)にする。
しかし、現実の世界はマルチモーダルであるだけでなく、しばしば複雑であり、このような進歩にもかかわらず、エージェントは行動の不確実性を理解し、ナビゲートの指示を求める必要がある。
そこで我々は,音声・視覚言語エンボディドナビゲーションのための対話型エージェントであるavlen~を提案する。
音声ビジュアルナビゲーションタスクと同様に、我々の実施するエージェントの目標は、3dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることにありますが、エージェントは人間(oracle)の助けを求めます。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用して学習する。
(a) ナビゲーションのためにオーディオキューを選択するか,oracleに問い合わせるか,あるいは,ハイレベルなポリシー
b) 音声・視覚・言語入力に基づくナビゲーション動作を選択するための低レベルポリシー。
ポリシーはナビゲーションタスクの成功に対する報奨を通じてトレーニングされ、オラクルへのクエリの数を最小限にする。
AVLENを実験的に評価するために,意味的音声視覚ナビゲーションタスクのためのSoundSpacesフレームワークの実験を行った。
以上の結果から, エージェントに助けを求めることで, 特に訓練中に音が聞こえなかったり, 邪魔音があったりした場合に, パフォーマンスが向上することが示唆された。
関連論文リスト
- LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Multi-goal Audio-visual Navigation using Sound Direction Map [10.152838128195468]
マルチゴール音声視覚ナビゲーションのための新しいフレームワークを提案する。
この研究は、マルチゴールオーディオ視覚ナビゲーションが、音源を分離する暗黙的な必要性の難しさを示唆している。
本研究では,複数の音源を学習的手法で動的に局所化するSDM法を提案する。
論文 参考訳(メタデータ) (2023-08-01T01:26:55Z) - CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual
Navigation in Noisy Environments [41.21509045214965]
CAVENは、エージェントが音声目標にナビゲートするタスクを解決するためのヒューマン/オーラルと対話することのできるフレームワークである。
以上の結果から,我々の全会話的アプローチは,成功率のオーダー・オブ・マグニチュード改善にほぼ寄与していることがわかった。
論文 参考訳(メタデータ) (2023-06-06T22:32:49Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - Towards Generalisable Audio Representations for Audio-Visual Navigation [18.738943602529805]
オーディオ視覚ナビゲーション(AVN)では、知的エージェントが複雑な3D環境下で常に音を出す物体にナビゲートする必要がある。
本稿では,音声エンコーダの正規化により,この課題に対処するための対照的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:00:07Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。