論文の概要: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2412.01857v1
- Date: Sat, 30 Nov 2024 16:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:31.266701
- Title: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- Title(参考訳): イマジネーションからのプランニング:視覚・言語ナビゲーションのためのエピソードシミュレーションとエピソード記憶
- Authors: Yiyuan Pan, Yunzhe Xu, Zhe Liu, Hesheng Wang,
- Abstract要約: 本稿では,エージェントが繰り返し発生する仮想記憶システムを構築するのを支援する新しいアーキテクチャを提案する。
エージェントは、ナビゲーション中に現実想像ハイブリッドグローバルメモリを維持でき、想像的なメカニズムやナビゲーションアクションを通じてメモリマップを拡張することができる。
我々のエージェントは、将来のシーンに高忠実なRGB表現を同時に想像しながら、最先端(SoTA)成功率(SR)を7%向上させる。
- 参考スコア(独自算出の注目度): 12.428873051106702
- License:
- Abstract: Humans navigate unfamiliar environments using the capabilities of episodic simulation and episodic memory. Developing imagination-based memory, analogous to episodic simulation and episodic memory, can enhance embodied agents' comprehension of the complex relationship between environments and objects. However, existing Vision-and-Language Navigation (VLN) agents fail to perform the aforementioned mechanism. We propose a novel architecture to help agents build a recurrent imaginative memory system. Specifically, the agent can maintain a reality-imagination hybrid global memory during navigation and expand the memory map through imaginative mechanisms and navigation actions. Correspondingly, we design a series of pre-training tasks to help the agent acquire fine-grained imaginative abilities. Our agents improve the state-of-the-art (SoTA) success rate (SR) by 7% while simultaneously imagining high-fidelity RGB representations for future scenes.
- Abstract(参考訳): 人間は、エピソディック・シミュレーションとエピソディック・メモリの能力を使って、馴染みの無い環境をナビゲートする。
想像力に基づくメモリの開発は、エピソディックシミュレーションやエピソディックメモリと類似しており、環境とオブジェクトの間の複雑な関係に関するエンボディエージェントの理解を高めることができる。
しかし、既存のVision-and-Language Navigation (VLN)エージェントは前述のメカニズムを実行できない。
本稿では,エージェントが繰り返し発生する仮想記憶システムを構築するのを支援する新しいアーキテクチャを提案する。
具体的には、ナビゲーション中に現実想像ハイブリッドグローバルメモリを維持でき、想像的なメカニズムやナビゲーションアクションを通じてメモリマップを拡張することができる。
それに対応して,エージェントが細かな想像能力を得るのに役立つ一連の事前学習タスクを設計する。
我々のエージェントは、将来のシーンに高忠実なRGB表現を同時に想像しながら、最先端(SoTA)成功率(SR)を7%向上させる。
関連論文リスト
- Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - Conceptual Design of the Memory System of the Robot Cognitive
Architecture ArmarX [6.201183690272094]
メモリシステムのような概念的,技術的特性を,基礎となるデータ表現とともに記述する。
我々は、ロボットソフトウェアフレームワークArmarXを、ARMARヒューマノイドロボットファミリーのロボットに使用される統一された認知アーキテクチャに拡張する。
メモリ駆動動作を実装するために,ロボットがメモリをどのように利用するかを示す。
論文 参考訳(メタデータ) (2022-06-05T19:15:29Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - A Proposal for Intelligent Agents with Episodic Memory [0.9236074230806579]
エージェントはエピソード記憶の恩恵を受けるだろうと我々は主張する。
このメモリはエージェントの経験をエージェントが経験を信頼できるようにエンコードする。
本稿では,ANNと標準計算機科学技術を組み合わせて,エピソード記憶の記憶と検索を支援するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-07T00:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。