論文の概要: Landmark Policy Optimization for Object Navigation Task
- arxiv url: http://arxiv.org/abs/2109.09512v1
- Date: Fri, 17 Sep 2021 12:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:15:04.243166
- Title: Landmark Policy Optimization for Object Navigation Task
- Title(参考訳): オブジェクトナビゲーションタスクのためのランドマークポリシー最適化
- Authors: Aleksey Staroverov, Aleksandr I. Panov
- Abstract要約: 本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies object goal navigation task, which involves navigating to
the closest object related to the given semantic category in unseen
environments. Recent works have shown significant achievements both in the
end-to-end Reinforcement Learning approach and modular systems, but need a big
step forward to be robust and optimal. We propose a hierarchical method that
incorporates standard task formulation and additional area knowledge as
landmarks, with a way to extract these landmarks. In a hierarchy, a low level
consists of separately trained algorithms to the most intuitive skills, and a
high level decides which skill is needed at this moment. With all proposed
solutions, we achieve a 0.75 success rate in a realistic Habitat simulator.
After a small stage of additional model training in a reconstructed virtual
area at a simulator, we successfully confirmed our results in a real-world
case.
- Abstract(参考訳): 本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクを研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,標準的なタスク定式化と追加領域知識をランドマークとして取り入れ,これらのランドマークを抽出する階層的手法を提案する。
階層構造では、低レベルは個別に訓練されたアルゴリズムから最も直感的なスキルで構成され、高レベルはどのスキルが必要かを決定する。
提案手法すべてを用いて,実環境シミュレータを用いて0.75成功率を達成した。
シミュレータで再構成された仮想空間でのモデルトレーニングを小さな段階で行った結果,実世界での結果が確認できた。
関連論文リスト
- Multi-Object Navigation in real environments using hybrid policies [18.52681391843433]
本稿では,問題を2つの異なるスキルに分解するハイブリッドナビゲーション手法を提案する。
シミュレーションと実環境の両方において、エンドツーエンドの手法と比較して、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2024-01-24T20:41:25Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning
with Intrinsic-Extrinsic Modeling [33.89793938441333]
本稿では,本質的・非本質的な報酬設定を伴う階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。
House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:21:38Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。