論文の概要: Think before Go: Hierarchical Reasoning for Image-goal Navigation
- arxiv url: http://arxiv.org/abs/2604.17407v1
- Date: Sun, 19 Apr 2026 12:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.510594
- Title: Think before Go: Hierarchical Reasoning for Image-goal Navigation
- Title(参考訳): Go以前の考え:イメージゴールナビゲーションのための階層的推論
- Authors: Pengna Li, Kangyi Wu, Shaoqing Xu, Fang Li, Lin Zhao, Long Chen, Zhi-Xin Yang, Nanning Zheng,
- Abstract要約: 画像ゴールナビゲーションを高レベル計画と低レベル実行に分解するフレームワークを提案する。
高レベルの計画では、視覚言語モデルが自己コンパイルされたデータセット上でトレーニングされ、短期水平計画を生成する。
低レベルの実行では、オンライン強化学習ポリシーを使用して、短期ホライゾン計画に規定された行動を決定する。
- 参考スコア(独自算出の注目度): 42.91450373979155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-goal navigation steers an agent to a target location specified by an image in unseen environments. Existing methods primarily handle this task by learning an end-to-end navigation policy, which compares the similarities of target and observation images and directly predicts the actions. However, when the target is distant or lies in another room, such methods fail to extract informative visual cues, leading the agent to wander around. Motivated by the human cognitive principle that deliberate, high-level reasoning guides fast, reactive execution in complex tasks, we propose Hierarchical Reasoning Navigation (HRNav), a framework that decomposes image-goal navigation into high-level planning and low-level execution. In high-level planning, a vision-language model is trained on a self-collected dataset to generate a short-horizon plan, such as whether the agent should walk through the door or down the hallway. This downgrades the difficulty of the long-horizon task, making it more amenable to the execution part. In low-level execution, an online reinforcement learning policy is utilized to decide actions conditioned on the short-horizon plan. We also devise a novel Wandering Suppression Penalty (WSP) to further reduce the wandering problem. Together, these components form a hierarchical framework for Image-Goal Navigation. Extensive experiments in both simulation and real-world environments demonstrate the superiority of our method.
- Abstract(参考訳): イメージゴールナビゲーションは、未確認の環境で画像によって指定されたターゲット位置にエージェントを操縦する。
既存の方法は、主に、目標画像と観測画像の類似性を比較し、アクションを直接予測するエンドツーエンドナビゲーションポリシーを学習することで、このタスクを処理する。
しかし、ターゲットが遠く、あるいは別の部屋に横たわっている場合、そのような方法は情報的な視覚的手がかりを抽出することができず、エージェントが歩き回る。
複雑なタスクにおいて、意図的な高レベルの推論が高速でリアクティブな実行を導くという人間の認知原理に触発され、画像ゴールナビゲーションを高レベルの計画と低レベルの実行に分解するフレームワークである階層推論ナビゲーション(HRNav)を提案する。
高レベルプランニングでは、エージェントがドアを通り抜けるか廊下を下るかといった短期計画を生成するために、自己収集データセット上で視覚言語モデルを訓練する。
これにより、長い水平タスクの難易度が低下し、実行部がより快適になる。
低レベルの実行では、オンライン強化学習ポリシーを使用して、短期ホライゾン計画に規定された行動を決定する。
また, 避難問題をさらに軽減するために, WSP (Wandering Suppression Penalty) を考案した。
これらのコンポーネントは、Image-Goal Navigationの階層的なフレームワークを形成する。
シミュレーションと実環境の両方における大規模な実験により,本手法の優位性を実証した。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [64.57388036567461]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Transformers for Image-Goal Navigation [0.0]
本稿では,画像目標,カメラ観測,ロボットの過去の動作を共同でモデル化し,将来の行動を予測するための生成トランスフォーマーモデルを提案する。
本モデルでは,長期間の地平線上での視覚情報の収集と関連性を実証し,ナビゲーションの効率化に寄与する。
論文 参考訳(メタデータ) (2024-05-23T03:01:32Z) - Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation [88.84058353659107]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
我々の手法は従来の最先端の手法を超越し、古典的セグメンテーションモデル(0.684対0.561成功)またはロバストモデル(0.702対0.561成功)を用いる。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。