論文の概要: Efficient Strategy Learning by Decoupling Searching and Pathfinding for Object Navigation
- arxiv url: http://arxiv.org/abs/2406.14103v2
- Date: Tue, 22 Jul 2025 02:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.737719
- Title: Efficient Strategy Learning by Decoupling Searching and Pathfinding for Object Navigation
- Title(参考訳): 物体ナビゲーションのための探索とパスフィニングの分離による効率的な戦略学習
- Authors: Yanwei Zheng, Shaopu Feng, Bowen Huang, Chuanlin Lan, Xiao Zhang, Dongxiao Yu,
- Abstract要約: オブジェクトナビゲーションのための2段階リワード機構(TSRM)は、エピソード内の探索とパスフィニングの動作を分離する。
また,Depth Enhanced Masked Autoencoders (DE-MAE) の事前学習手法を提案する。
さらに,探索経路長(SSSPL)を重み付けした探索成功度尺度を提案し,エージェントの探索能力と探索効率を評価する。
- 参考スコア(独自算出の注目度): 11.816377162334401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by human-like behaviors for navigation: first searching to explore unknown areas before discovering the target, and then the pathfinding of moving towards the discovered target, recent studies design parallel submodules to achieve different functions in the searching and pathfinding stages, while ignoring the differences in reward signals between the two stages. As a result, these models often cannot be fully trained or are overfitting on training scenes. Another bottleneck that restricts agents from learning two-stage strategies is spatial perception ability, since the studies used generic visual encoders without considering the depth information of navigation scenes. To release the potential of the model on strategy learning, we propose the Two-Stage Reward Mechanism (TSRM) for object navigation that decouples the searching and pathfinding behaviours in an episode, enabling the agent to explore larger area in searching stage and seek the optimal path in pathfinding stage. Also, we propose a pretraining method Depth Enhanced Masked Autoencoders (DE-MAE) that enables agent to determine explored and unexplored areas during the searching stage, locate target object and plan paths during the pathfinding stage more accurately. In addition, we propose a new metric of Searching Success weighted by Searching Path Length (SSSPL) that assesses agent's searching ability and exploring efficiency. Finally, we evaluated our method on AI2-Thor and RoboTHOR extensively and demonstrated it can outperform the state-of-the-art (SOTA) methods in both the success rate and the navigation efficiency.
- Abstract(参考訳): 目標の発見前に未知の領域を探索し,発見対象に向かって移動するためのパスフィニングを行い,近年の研究では,探索およびパスフィニング段階における異なる機能を達成するために並列サブモジュールを設計し,両者の報酬信号の違いを無視した。
結果として、これらのモデルは、完全にトレーニングできないことや、トレーニングシーンに過度に適合することがしばしばある。
エージェントが二段階戦略を学習することを妨げるもうひとつのボトルネックは、ナビゲーションシーンの深度情報を考慮せずに汎用的な視覚エンコーダを使用するため、空間知覚能力である。
戦略学習におけるモデルの可能性を明らかにするため,対象ナビゲーションのための2段階リワード機構(TSRM)を提案し,探索段階においてエージェントがより大きな領域を探索し,パスフィニング段階において最適な経路を求めることを可能にする。
また,Depth Enhanced Masked Autoencoders (DE-MAE) の事前学習手法を提案する。
さらに,探索経路長(SSSPL)を重み付けした探索成功度尺度を提案し,エージェントの探索能力と探索効率を評価する。
最後に,AI2-ThorとRobothorの手法を広範囲に評価し,成功率と航法効率の両方において最先端(SOTA)手法より優れていることを示した。
関連論文リスト
- CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance [13.922655150502365]
CREStEは完全なマップレスナビゲーション問題に対処するための表現と報酬を学ぶ。
我々はCREStEを6つの異なる都市環境におけるキロメートル規模のナビゲーションタスクで評価した。
論文 参考訳(メタデータ) (2025-03-05T21:42:46Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Implicit Obstacle Map-driven Indoor Navigation Model for Robust Obstacle
Avoidance [16.57243997206754]
頑健な障害物回避のための暗黙的障害物マップ駆動屋内ナビゲーションフレームワークを提案する。
非ローカルなメモリアグリゲーションモジュールは、非ローカルネットワークを活用して、ターゲットセマンティクスとターゲットの向きの手がかりとの本質的な関係をモデル化するように設計されている。
論文 参考訳(メタデータ) (2023-08-24T15:10:28Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Holistic Deep-Reinforcement-Learning-based Training of Autonomous
Navigation Systems [4.409836695738518]
Deep Reinforcement Learningは、地上車両の自律的なナビゲーションのための有望なアプローチとして登場した。
本稿では,ナビゲーションスタックの全要素を含む総合的な深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-06T16:52:15Z) - Learning to Explore by Reinforcement over High-Level Options [0.0]
エージェントに「見回し」と「フロンティアナビゲーション」という2つの行動選択肢を与える新しい手法を提案する。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
提案手法が利用可能な2つの3次元環境データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-11-02T04:21:34Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。
対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。
その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-30T09:41:40Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。