論文の概要: Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied
Navigation
- arxiv url: http://arxiv.org/abs/2212.11345v1
- Date: Wed, 21 Dec 2022 20:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:10:56.563665
- Title: Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied
Navigation
- Title(参考訳): セマンティック・オーディオ・ビジュアル・ボディード・ナビゲーションのための知識駆動型シーン
- Authors: Gyan Tatiya, Jonathan Francis, Luca Bondi, Ingrid Navarro, Eric
Nyberg, Jivko Sinapov, Jean Oh
- Abstract要約: 未知のコンテキストへの一般化は、具体化されたナビゲーションエージェントにとって依然として課題である。
本稿では,意味的音声・視覚的ナビゲーションタスクにおける知識駆動型シーン前処理の導入について紹介する。
未知の領域への一般化と新しい音響オブジェクトにおける強ベースラインの改善を示す。
- 参考スコア(独自算出の注目度): 18.397966659060966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalisation to unseen contexts remains a challenge for embodied navigation
agents. In the context of semantic audio-visual navigation (SAVi) tasks, the
notion of generalisation should include both generalising to unseen indoor
visual scenes as well as generalising to unheard sounding objects. However,
previous SAVi task definitions do not include evaluation conditions on truly
novel sounding objects, resorting instead to evaluating agents on unheard sound
clips of known objects; meanwhile, previous SAVi methods do not include
explicit mechanisms for incorporating domain knowledge about object and region
semantics. These weaknesses limit the development and assessment of models'
abilities to generalise their learned experience. In this work, we introduce
the use of knowledge-driven scene priors in the semantic audio-visual embodied
navigation task: we combine semantic information from our novel knowledge graph
that encodes object-region relations, spatial knowledge from dual Graph Encoder
Networks, and background knowledge from a series of pre-training tasks -- all
within a reinforcement learning framework for audio-visual navigation. We also
define a new audio-visual navigation sub-task, where agents are evaluated on
novel sounding objects, as opposed to unheard clips of known objects. We show
improvements over strong baselines in generalisation to unseen regions and
novel sounding objects, within the Habitat-Matterport3D simulation environment,
under the SoundSpaces task.
- Abstract(参考訳): 未知のコンテキストへの一般化は、具体化されたナビゲーションエージェントにとって依然として課題である。
セマンティック・オーディオ・ビジュアル・ナビゲーション(SAVi)タスクの文脈では、一般化の概念は、見えない屋内の視覚シーンへの一般化と、聴覚のない音の物体への一般化の両方を含むべきである。
しかし、従来のSAViタスク定義では、真に新しい音質オブジェクトに対する評価条件は含まないため、既知のオブジェクトの未聴音クリップに対するエージェントの評価に代えて、オブジェクトや領域のセマンティクスに関するドメイン知識を組み込むための明示的なメカニズムは含まない。
これらの弱点は、モデルの学習経験を一般化する能力の開発と評価を制限する。
本稿では,視聴覚具体化ナビゲーションタスクにおける知識駆動シーンプリエントの利用について紹介する。我々は,オブジェクト-地域関係をエンコードする新しい知識グラフからの意味情報,デュアルグラフエンコーダネットワークからの空間知識,および一連の事前学習タスクからの背景知識を,それぞれ音声-視覚ナビゲーションのための強化学習フレームワークに統合する。
また,新しい音声ナビゲーションサブタスクを定義し,エージェントは未知の映像クリップとは対照的に,新たな音響オブジェクト上で評価される。
本研究では,SoundSpacesタスク下でのHabitat-Matterport3Dシミュレーション環境において,未確認領域や新しい音場オブジェクトへの一般化における強いベースラインの改善を示す。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。