論文の概要: MemoNav: Selecting Informative Memories for Visual Navigation
- arxiv url: http://arxiv.org/abs/2208.09610v1
- Date: Sat, 20 Aug 2022 05:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:24:01.308515
- Title: MemoNav: Selecting Informative Memories for Visual Navigation
- Title(参考訳): MemoNav:ビジュアルナビゲーションのためのインフォームティブメモリの選択
- Authors: Hongxin Li, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang
- Abstract要約: 画像ゴールナビゲーションのための新しいメモリ機構であるMemoNavを提案する。
MemoNavは、ナビゲーション性能を改善するために、エージェントの情報的短期記憶と長期記憶を保持する。
我々は、新しいマルチゴールナビゲーションデータセットでモデルを評価する。
- 参考スコア(独自算出の注目度): 43.185016165039116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-goal navigation is a challenging task, as it requires the agent to
navigate to a target indicated by an image in a previously unseen scene.
Current methods introduce diverse memory mechanisms which save navigation
history to solve this task. However, these methods use all observations in the
memory for generating navigation actions without considering which fraction of
this memory is informative. To address this limitation, we present the MemoNav,
a novel memory mechanism for image-goal navigation, which retains the agent's
informative short-term memory and long-term memory to improve the navigation
performance on a multi-goal task. The node features on the agent's topological
map are stored in the short-term memory, as these features are dynamically
updated. To aid the short-term memory, we also generate long-term memory by
continuously aggregating the short-term memory via a graph attention module.
The MemoNav retains the informative fraction of the short-term memory via a
forgetting module based on a Transformer decoder and then incorporates this
retained short-term memory and the long-term memory into working memory.
Lastly, the agent uses the working memory for action generation. We evaluate
our model on a new multi-goal navigation dataset. The experimental results show
that the MemoNav outperforms the SoTA methods by a large margin with a smaller
fraction of navigation history. The results also empirically show that our
model is less likely to be trapped in a deadlock, which further validates that
the MemoNav improves the agent's navigation efficiency by reducing redundant
steps.
- Abstract(参考訳): イメージゴールナビゲーションは、エージェントが以前見えなかったシーンで画像によって示されるターゲットにナビゲートする必要があるため、難しい作業である。
現在の手法では、この課題を解決するためにナビゲーション履歴を保存する多様なメモリ機構が導入されている。
しかし、これらの手法は、どの部分のメモリが情報的であるかを考慮せずに、ナビゲーションアクションを生成するためにメモリ内のすべての観測を使用する。
この制限に対処するために,マルチゴールタスクにおけるナビゲーション性能を向上させるために,エージェントの情報的短期記憶と長期記憶を保持できる,イメージゴールナビゲーションのための新しいメモリ機構であるMemoNavを提案する。
エージェントのトポロジマップ上のノード機能は、これらの機能が動的に更新されるため、短期記憶に格納される。
短期記憶を支援するため、グラフアテンションモジュールを介して短期記憶を連続的に集約することにより、長期記憶を生成する。
MemoNavは、Transformerデコーダをベースとした忘れモジュールを通じて、短期メモリの情報的部分を保持し、この保持された短期メモリと長期メモリをワーキングメモリに組み込む。
最後に、エージェントはアクション生成にワーキングメモリを使用する。
我々は、新しいマルチゴールナビゲーションデータセットでモデルを評価する。
実験の結果,MemoNavは航法履歴の少ない大きなマージンでSoTA法よりも優れていた。
この結果は、我々のモデルはデッドロックに閉じ込められにくく、また、memonavが冗長なステップを減らすことでエージェントのナビゲーション効率を向上させることをさらに検証していることを示している。
関連論文リスト
- KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
論文 参考訳(メタデータ) (2024-09-23T11:02:46Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z) - Transfer between long-term and short-term memory using Conceptors [0.0]
短期成分と長期成分を組み合わせたワーキングメモリのリカレントニューラルネットワークモデルを提案する。
本稿では,概念上の標準的な操作が長期記憶を組み合わせ,その短期記憶への影響を説明する。
論文 参考訳(メタデータ) (2020-03-11T09:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。