論文の概要: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2412.01857v1
- Date: Sat, 30 Nov 2024 16:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.730945
- Title: Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation
- Title(参考訳): イマジネーションからのプランニング:視覚・言語ナビゲーションのためのエピソードシミュレーションとエピソード記憶
- Authors: Yiyuan Pan, Yunzhe Xu, Zhe Liu, Hesheng Wang,
- Abstract要約: 本稿では,エージェントが繰り返し発生する仮想記憶システムを構築するのを支援する新しいアーキテクチャを提案する。
エージェントは、ナビゲーション中に現実想像ハイブリッドグローバルメモリを維持でき、想像的なメカニズムやナビゲーションアクションを通じてメモリマップを拡張することができる。
我々のエージェントは、将来のシーンに高忠実なRGB表現を同時に想像しながら、最先端(SoTA)成功率(SR)を7%向上させる。
- 参考スコア(独自算出の注目度): 12.428873051106702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans navigate unfamiliar environments using the capabilities of episodic simulation and episodic memory. Developing imagination-based memory, analogous to episodic simulation and episodic memory, can enhance embodied agents' comprehension of the complex relationship between environments and objects. However, existing Vision-and-Language Navigation (VLN) agents fail to perform the aforementioned mechanism. We propose a novel architecture to help agents build a recurrent imaginative memory system. Specifically, the agent can maintain a reality-imagination hybrid global memory during navigation and expand the memory map through imaginative mechanisms and navigation actions. Correspondingly, we design a series of pre-training tasks to help the agent acquire fine-grained imaginative abilities. Our agents improve the state-of-the-art (SoTA) success rate (SR) by 7% while simultaneously imagining high-fidelity RGB representations for future scenes.
- Abstract(参考訳): 人間は、エピソディック・シミュレーションとエピソディック・メモリの能力を使って、馴染みの無い環境をナビゲートする。
想像力に基づくメモリの開発は、エピソディックシミュレーションやエピソディックメモリと類似しており、環境とオブジェクトの間の複雑な関係に関するエンボディエージェントの理解を高めることができる。
しかし、既存のVision-and-Language Navigation (VLN)エージェントは前述のメカニズムを実行できない。
本稿では,エージェントが繰り返し発生する仮想記憶システムを構築するのを支援する新しいアーキテクチャを提案する。
具体的には、ナビゲーション中に現実想像ハイブリッドグローバルメモリを維持でき、想像的なメカニズムやナビゲーションアクションを通じてメモリマップを拡張することができる。
それに対応して,エージェントが細かな想像能力を得るのに役立つ一連の事前学習タスクを設計する。
我々のエージェントは、将来のシーンに高忠実なRGB表現を同時に想像しながら、最先端(SoTA)成功率(SR)を7%向上させる。
関連論文リスト
- ForesightNav: Learning Scene Imagination for Efficient Exploration [57.49417653636244]
人間の想像力と推論に触発された新しい探索戦略であるForesightNavを提案する。
提案手法は,ロボットエージェントに,未探索領域の占有状況や意味的詳細などの文脈情報を予測する能力を備える。
本研究では,Structured3Dデータセットを用いた想像力に基づくアプローチの有効性を検証し,シーン形状の予測において,正確な占有率予測と優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-22T17:38:38Z) - Endowing Embodied Agents with Spatial Reasoning Capabilities for Vision-and-Language Navigation [0.0]
本稿では,生物学的空間認知理論と認知地図理論に着想を得た,バイオインスパイアされた空間認知ナビゲーションフレームワークBrainNavを提案する。
BrainNavは、デュアルマップ(座標マップとトポロジマップ)とデュアル指向(相対方向と絶対方向)戦略を統合し、動的なシーンキャプチャとパス計画によるリアルタイムナビゲーションを可能にする。
その5つのコアモジュール、ヒッポ海馬記憶ハブ、視覚皮質知覚エンジン、頭頂部空間コンストラクタ、前頭前決定センター、および脳運動実行単位の生体認知機能により、空間幻覚を減少させ、適応性を高める。
論文 参考訳(メタデータ) (2025-04-09T02:19:22Z) - Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.52028824411467]
本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。
エンドツーエンドのトレーニングから生じる推論のタイプを分析します。
本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文 参考訳(メタデータ) (2025-03-11T11:16:47Z) - SnapMem: Snapshot-based 3D Scene Memory for Embodied Exploration and Reasoning [65.40458559619303]
SnapMemは、新しいスナップショットベースのシーン表現で、エンボディエージェントの3Dシーンメモリとして機能する。
調査対象地域のリッチな視覚情報をキャプチャするために、Memory Snapshotsと呼ばれる情報的イメージを使用している。
また、未調査領域のFrontier Snapshots-glimpsを導入して、フロンティアベースの探索を統合する。
論文 参考訳(メタデータ) (2024-11-23T09:57:43Z) - SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors [42.85605789984155]
空間的視覚的質問応答(VQA)において、最先端の空間的推論強化VLMを訓練する
本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。
我々の空間推論型VLMは、空間的VQAの様々な形態でうまく機能し、ピックやスタック、軌道計画といった下流ロボット作業に役立てることができる。
論文 参考訳(メタデータ) (2024-03-18T17:38:29Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - Conceptual Design of the Memory System of the Robot Cognitive
Architecture ArmarX [6.201183690272094]
メモリシステムのような概念的,技術的特性を,基礎となるデータ表現とともに記述する。
我々は、ロボットソフトウェアフレームワークArmarXを、ARMARヒューマノイドロボットファミリーのロボットに使用される統一された認知アーキテクチャに拡張する。
メモリ駆動動作を実装するために,ロボットがメモリをどのように利用するかを示す。
論文 参考訳(メタデータ) (2022-06-05T19:15:29Z) - Pathdreamer: A World Model for Indoor Navigation [62.78410447776939]
本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
論文 参考訳(メタデータ) (2021-05-18T18:13:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。