論文の概要: Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration
- arxiv url: http://arxiv.org/abs/2605.22814v1
- Date: Thu, 21 May 2026 17:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.391286
- Title: Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration
- Title(参考訳): 3D探索のためのエピソード的コンテキストと永続的世界
- Authors: Lily Goli, Justin Kerr, Daniele Reda, Alec Jacobson, Andrea Tagliasacchi, Angjoo Kanazawa,
- Abstract要約: 本研究では,この失敗は空間的持続性とエピソード的文脈の欠如に起因することを実証する。
エージェントポリシーは、RGB観測のシーケンスモデルとしてパラメータ化され、エピソジックな文脈を維持する。
エンド・ツー・エンドのポリシーは、リンゴの摘みやイメージゴールナビゲーションといった下流タスクへの効果的な適応を可能にし、オフ・スクラッチベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 60.63663437013685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration is a prerequisite for learning useful behaviors in sparse-reward, long-horizon tasks, particularly within 3D environments. Curiosity-driven reinforcement learning addresses this via intrinsic rewards derived from the mismatch between the agent's predictive model of the world and reality. However, translating this intrinsic motivation to complex, photorealistic environments remains difficult, as agents can become trapped in local loops and receive fresh rewards for revisiting forgotten states. In this work, we demonstrate that this failure stems from a lack of spatial persistence and episodic context. We show that effective curiosity requires a model of the world that is persistent and continuously updated, paired with an agent that maintains an episodic trajectory history to navigate toward novel regions. We achieve this using an online 3D reconstruction as a persistent model of the world, while the agent policy is parameterized as a sequence model over RGB observations to maintain episodic context. This design enables effective exploration during training while allowing the agent to navigate using solely RGB frames at deployment. Trained purely via curiosity on HM3D, our agent outperforms RL-based active mapping baselines and generalizes zero-shot to Gibson and AI-generated worlds. Our end-to-end policy enables efficient adaptation to downstream tasks, such as apple picking and image-goal navigation, outperforming from-scratch baselines. Please see video results at https://recuriosity.github.io/.
- Abstract(参考訳): 探索は、特に3次元環境において、スパース・リワード、ロングホライゾンのタスクにおいて有用な行動を学ぶための前提条件である。
好奇心駆動型強化学習は、エージェントの世界の予測モデルと現実とのミスマッチに由来する本質的な報酬を通じてこの問題に対処する。
しかし、この本質的な動機を複雑で写実的な環境に翻訳することは依然として困難であり、エージェントは局所ループに閉じ込められ、忘れられた状態を再考する新たな報酬を受けることができる。
本研究では,この失敗は空間的持続性とエピソード的文脈の欠如に起因することを実証する。
実効性のある好奇心は、持続的かつ継続的に更新される世界のモデルを必要とし、新しい領域に向かうために、エピソード的軌道履歴を維持するエージェントと組み合わせることが示される。
エージェントポリシーは、RGB観測のシーケンスモデルとしてパラメータ化され、エピソジックな文脈を維持する。
この設計は、エージェントがデプロイ時にのみRGBフレームを使用してナビゲートしながら、トレーニング中に効果的な探索を可能にする。
HM3Dの好奇心によって純粋に訓練されたエージェントは、RLベースのアクティブマッピングベースラインを上回り、GibsonやAI生成の世界にゼロショットを一般化します。
エンド・ツー・エンドのポリシーは、リンゴの摘みやイメージゴールナビゲーションといった下流タスクへの効果的な適応を可能にし、オフ・スクラッチベースラインよりも優れています。
ビデオの結果はhttps://recuriosity.github.io/でご覧ください。
関連論文リスト
- What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity [38.38728887407681]
VLMエージェントは、好奇心を駆使した探索を通じて、内部世界モデルに挑戦し、洗練するシグナルを積極的に見つけることができるだろうか?
本稿では,エージェントの言語世界モデルに基づく推論と探索を,進化するターゲットネットワークの安定的な視覚表現に基礎付けることによってブリッジする統合フレームワークGLANCEを提案する。
論文 参考訳(メタデータ) (2026-05-05T14:08:54Z) - GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning [9.203056739430865]
GSMemは3Dガウススプラッティング(3DGS)上に構築されたゼロショット型探査・推論フレームワーク
連続幾何と密接な外観を明示的にパラメータ化することにより、3DGSは持続的な空間記憶として機能し、エージェントにtextitSpatial Recollection を付与する。
本稿では,VLMによるセマンティックスコアリングと3DGSに基づくカバレッジ目標を組み合わせ,タスク認識探索と幾何学的カバレッジのバランスをとるハイブリッド探索戦略を提案する。
論文 参考訳(メタデータ) (2026-03-19T16:55:54Z) - LookOut: Real-World Humanoid Egocentric Navigation [61.14016011125957]
本稿では,エゴセントリックな映像から将来の6Dヘッドポーズの列を予測するという課題を紹介する。
この課題を解決するために,時間的に集約された3次元潜伏特徴を考慮に入れた枠組みを提案する。
この分野のトレーニングデータが不足していることから,このアプローチを通じて収集されたデータセットを提示する。
論文 参考訳(メタデータ) (2025-08-20T06:43:36Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。