論文の概要: Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation
- arxiv url: http://arxiv.org/abs/2511.08935v1
- Date: Thu, 13 Nov 2025 01:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.311143
- Title: Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation
- Title(参考訳): SCOPEの拡張: 身体的視覚ナビゲーションのための可能性に基づく探索に対する意味的認知
- Authors: Ningnan Wang, Weihuang Chen, Liming Chen, Haoxuan Ji, Zhongyu Guo, Xuchong Zhang, Hongbin Sun,
- Abstract要約: エージェントは限られた知識で未知の環境を探索しなければならないため、身体的視覚ナビゲーションは依然として困難な課題である。
既存のゼロショット研究では、ゴール指向動作をサポートするメモリ機構を組み込むことで、長期計画性能が向上することが示されている。
ゼロショットフレームワークであるセマンティック・コグニション・オーバー・ポテンシャルベース探索(SCOPE)を提案する。
- 参考スコア(独自算出の注目度): 6.993095391722284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied visual navigation remains a challenging task, as agents must explore unknown environments with limited knowledge. Existing zero-shot studies have shown that incorporating memory mechanisms to support goal-directed behavior can improve long-horizon planning performance. However, they overlook visual frontier boundaries, which fundamentally dictate future trajectories and observations, and fall short of inferring the relationship between partial visual observations and navigation goals. In this paper, we propose Semantic Cognition Over Potential-based Exploration (SCOPE), a zero-shot framework that explicitly leverages frontier information to drive potential-based exploration, enabling more informed and goal-relevant decisions. SCOPE estimates exploration potential with a Vision-Language Model and organizes it into a spatio-temporal potential graph, capturing boundary dynamics to support long-horizon planning. In addition, SCOPE incorporates a self-reconsideration mechanism that revisits and refines prior decisions, enhancing reliability and reducing overconfident errors. Experimental results on two diverse embodied navigation tasks show that SCOPE outperforms state-of-the-art baselines by 4.6\% in accuracy. Further analysis demonstrates that its core components lead to improved calibration, stronger generalization, and higher decision quality.
- Abstract(参考訳): エージェントは限られた知識で未知の環境を探索しなければならないため、身体的視覚ナビゲーションは依然として困難な課題である。
既存のゼロショット研究では、ゴール指向動作をサポートするメモリ機構を組み込むことで、長期計画性能が向上することが示されている。
しかし、彼らは将来の軌跡や観測を根本的に規定する視覚的フロンティアの境界を見落とし、部分的な視覚的観察とナビゲーション目標の関係を推測するに足らない。
本稿では,ゼロショットフレームワークであるSCOPE(Semantic Cognition Over potential-based Exploration)を提案する。
SCOPEはVision-Language Modelを用いて探索ポテンシャルを推定し、それを時空間ポテンシャルグラフに整理し、境界ダイナミクスを捉えて長期計画を支援する。
さらにSCOPEには、事前決定を再検討し、洗練し、信頼性を高め、過信のエラーを減らす自己再考機構が組み込まれている。
2つの多種多様なナビゲーションタスクの実験結果は、SCOPEが最先端のベースラインを4.6\%精度で上回っていることを示している。
さらなる分析により、コアコンポーネントがキャリブレーションの改善、一般化の強化、意思決定品質の向上につながることが示されている。
関連論文リスト
- Goal Discovery with Causal Capacity for Efficient Reinforcement Learning [85.28685202281918]
因果推論は人間が世界を探検するのに不可欠である。
本稿では,効率的な環境探索のための新たなゴールディスカバリーと因果容量フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-13T08:54:56Z) - Efficient and Generalizable Environmental Understanding for Visual Navigation [14.10058573339022]
ビジュアルナビゲーションは、エージェントが与えられた目的に向かって複雑な環境をナビゲートできるようにする、Embodied AIの中核的なタスクである。
エージェントの環境理解能力を高めるために因果理解モジュールを組み込んだ因果認識ナビゲーション(CAN)を提案する。
論文 参考訳(メタデータ) (2025-06-18T11:47:02Z) - ForesightNav: Learning Scene Imagination for Efficient Exploration [57.49417653636244]
人間の想像力と推論に触発された新しい探索戦略であるForesightNavを提案する。
提案手法は,ロボットエージェントに,未探索領域の占有状況や意味的詳細などの文脈情報を予測する能力を備える。
本研究では,Structured3Dデータセットを用いた想像力に基づくアプローチの有効性を検証し,シーン形状の予測において,正確な占有率予測と優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-22T17:38:38Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。