論文の概要: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2412.01857v1
- Date: Sat, 30 Nov 2024 16:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:31.266701
- Title: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- Title(参考訳): イマジネーションからのプランニング:視覚・言語ナビゲーションのためのエピソードシミュレーションとエピソード記憶
- Authors: Yiyuan Pan, Yunzhe Xu, Zhe Liu, Hesheng Wang,
- Abstract要約: 本稿では,エージェントが繰り返し発生する仮想記憶システムを構築するのを支援する新しいアーキテクチャを提案する。
エージェントは、ナビゲーション中に現実想像ハイブリッドグローバルメモリを維持でき、想像的なメカニズムやナビゲーションアクションを通じてメモリマップを拡張することができる。
我々のエージェントは、将来のシーンに高忠実なRGB表現を同時に想像しながら、最先端(SoTA)成功率(SR)を7%向上させる。
- 参考スコア(独自算出の注目度): 12.428873051106702
- License:
- Abstract: Humans navigate unfamiliar environments using the capabilities of episodic simulation and episodic memory. Developing imagination-based memory, analogous to episodic simulation and episodic memory, can enhance embodied agents' comprehension of the complex relationship between environments and objects. However, existing Vision-and-Language Navigation (VLN) agents fail to perform the aforementioned mechanism. We propose a novel architecture to help agents build a recurrent imaginative memory system. Specifically, the agent can maintain a reality-imagination hybrid global memory during navigation and expand the memory map through imaginative mechanisms and navigation actions. Correspondingly, we design a series of pre-training tasks to help the agent acquire fine-grained imaginative abilities. Our agents improve the state-of-the-art (SoTA) success rate (SR) by 7% while simultaneously imagining high-fidelity RGB representations for future scenes.
- Abstract(参考訳): 人間は、エピソディック・シミュレーションとエピソディック・メモリの能力を使って、馴染みの無い環境をナビゲートする。
想像力に基づくメモリの開発は、エピソディックシミュレーションやエピソディックメモリと類似しており、環境とオブジェクトの間の複雑な関係に関するエンボディエージェントの理解を高めることができる。
しかし、既存のVision-and-Language Navigation (VLN)エージェントは前述のメカニズムを実行できない。
本稿では,エージェントが繰り返し発生する仮想記憶システムを構築するのを支援する新しいアーキテクチャを提案する。
具体的には、ナビゲーション中に現実想像ハイブリッドグローバルメモリを維持でき、想像的なメカニズムやナビゲーションアクションを通じてメモリマップを拡張することができる。
それに対応して,エージェントが細かな想像能力を得るのに役立つ一連の事前学習タスクを設計する。
我々のエージェントは、将来のシーンに高忠実なRGB表現を同時に想像しながら、最先端(SoTA)成功率(SR)を7%向上させる。
関連論文リスト
- Visual Episodic Memory-based Exploration [0.6374763930914523]
人間では、本質的なモチベーションはオープンエンド認知発達の重要なメカニズムであり、ロボットでは探索に有用である。
本稿では,ロボット探索問題への動機づけの源として,視覚的エピソードメモリの利用について検討する。
論文 参考訳(メタデータ) (2024-05-18T13:58:47Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Semantic HELM: A Human-Readable Memory for Reinforcement Learning [9.746397419479445]
人間の言語における過去の出来事を表現する新しい記憶機構を提案する。
私たちは、部分的に観測可能な環境のセットでメモリメカニズムをトレーニングし、それがメモリコンポーネントを必要とするタスクに優れていることを見つけます。
メモリメカニズムは人間が読めるので、エージェントのメモリを覗き見して、重要な情報が保存されているかどうかを確認することができます。
論文 参考訳(メタデータ) (2023-06-15T17:47:31Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。
私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。
動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文 参考訳(メタデータ) (2023-01-30T20:09:39Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z) - A Proposal for Intelligent Agents with Episodic Memory [0.9236074230806579]
エージェントはエピソード記憶の恩恵を受けるだろうと我々は主張する。
このメモリはエージェントの経験をエージェントが経験を信頼できるようにエンコードする。
本稿では,ANNと標準計算機科学技術を組み合わせて,エピソード記憶の記憶と検索を支援するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-07T00:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。