Fugu-MT 論文翻訳(概要): MemoNav: Working Memory Model for Visual Navigation

論文の概要: MemoNav: Working Memory Model for Visual Navigation

arxiv url: http://arxiv.org/abs/2402.19161v1
Date: Thu, 29 Feb 2024 13:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 14:46:24.098542
Title: MemoNav: Working Memory Model for Visual Navigation
Title（参考訳）: MemoNav: ビジュアルナビゲーションのためのワーキングメモリモデル
Authors: Hongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang
Abstract要約: イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
参考スコア（独自算出の注目度）: 49.81380163967168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-goal navigation is a challenging task that requires an agent to navigate to a goal indicated by an image in unfamiliar environments. Existing methods utilizing diverse scene memories suffer from inefficient exploration since they use all historical observations for decision-making without considering the goal-relevant fraction. To address this limitation, we present MemoNav, a novel memory model for image-goal navigation, which utilizes a working memory-inspired pipeline to improve navigation performance. Specifically, we employ three types of navigation memory. The node features on a map are stored in the short-term memory (STM), as these features are dynamically updated. A forgetting module then retains the informative STM fraction to increase efficiency. We also introduce long-term memory (LTM) to learn global scene representations by progressively aggregating STM features. Subsequently, a graph attention module encodes the retained STM and the LTM to generate working memory (WM) which contains the scene features essential for efficient navigation. The synergy among these three memory types boosts navigation performance by enabling the agent to learn and leverage goal-relevant scene features within a topological map. Our evaluation on multi-goal tasks demonstrates that MemoNav significantly outperforms previous methods across all difficulty levels in both Gibson and Matterport3D scenes. Qualitative results further illustrate that MemoNav plans more efficient routes.
Abstract（参考訳）: 画像ナビゲーションは、エージェントが未知の環境で画像が示すゴールまでナビゲートする必要がある困難なタスクである。多様なシーン記憶を利用する既存の方法は、ゴール関連率を考慮せずにすべての歴史的観察を意思決定に利用するため、非効率な探索に苦しむ。この制限に対処するために,動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,画像ゴールナビゲーションの新しいメモリモデルであるMemoNavを提案する。具体的には,3種類のナビゲーションメモリを用いる。地図上のノード機能は短期記憶(STM)に格納され、これらの機能は動的に更新される。忘れるモジュールは、効率を上げるために情報的STM分数を保持する。また,STM機能を段階的に集約することで,グローバルなシーン表現を学習するための長期記憶(LTM)も導入する。その後、グラフアテンションモジュールは、保持されたSTMとLTMを符号化して、効率的なナビゲーションに必要なシーン特徴を含むワーキングメモリ(WM)を生成する。これら3つのメモリタイプ間の相乗効果により、トポロジマップ内の目標関連シーンの特徴を学習し活用することにより、ナビゲーション性能が向上する。マルチゴールタスクにおける評価の結果,gibsonおよびmatterport3dシーンの難易度レベルにおいて,memonavが従来の手法を大きく上回っていることが示された。質的な結果は、MemoNavがより効率的なルートを計画していることを示している。

関連論文リスト

Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System [8.629870144131248]
大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を行うための具体的エージェントを必要とする。階層型空間認識長短メモリシステムである textbfMem4Nav を導入し,任意のVLNバックボーンを拡張できる。
論文参考訳（メタデータ） (2025-06-24T09:00:43Z)
Memory Proxy Maps for Visual Navigation [6.1190419149081245]
視覚的なナビゲーションは人間からインスピレーションを受け、視覚を使って、詳細な環境マップを使わずに、これまで見えなかった環境をナビゲートする。これに触発されて、封建的学習を用いた視覚ナビゲーションのための、No-RL、No-graph、No-odometryアプローチを導入し、3つのタイレッドエージェントを構築した。
論文参考訳（メタデータ） (2024-11-15T02:37:14Z)
GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。 GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文参考訳（メタデータ） (2024-04-09T20:40:00Z)
GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS) 我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文参考訳（メタデータ） (2024-03-18T09:56:48Z)
ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文参考訳（メタデータ） (2023-03-02T07:42:07Z)
MemoNav: Selecting Informative Memories for Visual Navigation [43.185016165039116]
画像ゴールナビゲーションのための新しいメモリ機構であるMemoNavを提案する。 MemoNavは、ナビゲーション性能を改善するために、エージェントの情報的短期記憶と長期記憶を保持する。我々は、新しいマルチゴールナビゲーションデータセットでモデルを評価する。
論文参考訳（メタデータ） (2022-08-20T05:57:21Z)
Object Memory Transformer for Object Goal Navigation [10.359616364592075]
本稿では,物体目標ナビゲーション(Nav)のための強化学習手法を提案する。エージェントは3次元屋内環境をナビゲートし、対象物やシーンの長期観察に基づいて対象物に到達する。私たちの知る限りでは、ゴール指向ナビゲーションタスクにおけるオブジェクトセマンティクスの長期記憶を利用する最初の作業である。
論文参考訳（メタデータ） (2022-03-24T09:16:56Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。