論文の概要: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2412.01857v2
- Date: Wed, 25 Dec 2024 08:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:49.078296
- Title: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- Title(参考訳): イマジネーションからのプランニング:視覚・言語ナビゲーションのためのエピソードシミュレーションとエピソード記憶
- Authors: Yiyuan Pan, Yunzhe Xu, Zhe Liu, Hesheng Wang,
- Abstract要約: 我々は,エージェントに現実的想像型ハイブリッドメモリシステムを提供する新しいアーキテクチャを開発した。
我々のエージェントは、将来の場面で高忠実なRGB画像を想像し、パス長(SPL)で重み付けされた成功率の最先端結果を達成することができる。
- 参考スコア(独自算出の注目度): 12.428873051106702
- License:
- Abstract: Humans navigate unfamiliar environments using episodic simulation and episodic memory, which facilitate a deeper understanding of the complex relationships between environments and objects. Developing an imaginative memory system inspired by human mechanisms can enhance the navigation performance of embodied agents in unseen environments. However, existing Vision-and-Language Navigation (VLN) agents lack a memory mechanism of this kind. To address this, we propose a novel architecture that equips agents with a reality-imagination hybrid memory system. This system enables agents to maintain and expand their memory through both imaginative mechanisms and navigation actions. Additionally, we design tailored pre-training tasks to develop the agent's imaginative capabilities. Our agent can imagine high-fidelity RGB images for future scenes, achieving state-of-the-art result in Success rate weighted by Path Length (SPL).
- Abstract(参考訳): 人間は、環境とオブジェクトの間の複雑な関係をより深く理解するために、エピソディック・シミュレーションとエピソディック・メモリを使用して、馴染みの無い環境をナビゲートする。
人間のメカニズムにインスパイアされた想像上の記憶システムの開発は、見えない環境でのエンボディエージェントのナビゲーション性能を向上させることができる。
しかし、既存のVision-and-Language Navigation (VLN) エージェントにはこの種のメモリ機構がない。
そこで本研究では,エージェントに実感型ハイブリッドメモリシステムを実現する新しいアーキテクチャを提案する。
このシステムにより、エージェントは想像的なメカニズムとナビゲーションアクションの両方を通してメモリを維持および拡張することができる。
さらに,エージェントの想像能力を高めるための事前学習タスクを設計する。
我々のエージェントは、将来のシーンで高忠実なRGB画像を想像でき、パス長(SPL)の重み付けによる成功率の最先端結果を達成することができる。
関連論文リスト
- Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - Conceptual Design of the Memory System of the Robot Cognitive
Architecture ArmarX [6.201183690272094]
メモリシステムのような概念的,技術的特性を,基礎となるデータ表現とともに記述する。
我々は、ロボットソフトウェアフレームワークArmarXを、ARMARヒューマノイドロボットファミリーのロボットに使用される統一された認知アーキテクチャに拡張する。
メモリ駆動動作を実装するために,ロボットがメモリをどのように利用するかを示す。
論文 参考訳(メタデータ) (2022-06-05T19:15:29Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - A Proposal for Intelligent Agents with Episodic Memory [0.9236074230806579]
エージェントはエピソード記憶の恩恵を受けるだろうと我々は主張する。
このメモリはエージェントの経験をエージェントが経験を信頼できるようにエンコードする。
本稿では,ANNと標準計算機科学技術を組み合わせて,エピソード記憶の記憶と検索を支援するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-07T00:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。