論文の概要: Learning to Explore by Reinforcement over High-Level Options
- arxiv url: http://arxiv.org/abs/2111.01364v1
- Date: Tue, 2 Nov 2021 04:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:10:51.501868
- Title: Learning to Explore by Reinforcement over High-Level Options
- Title(参考訳): 高レベルオプションの強化による探索の学習
- Authors: Liu Juncheng, McCane Brendan, Mills Steven
- Abstract要約: エージェントに「見回し」と「フロンティアナビゲーション」という2つの行動選択肢を与える新しい手法を提案する。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
提案手法が利用可能な2つの3次元環境データセットに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous 3D environment exploration is a fundamental task for various
applications such as navigation. The goal of exploration is to investigate a
new environment and build its occupancy map efficiently. In this paper, we
propose a new method which grants an agent two intertwined options of
behaviors: "look-around" and "frontier navigation". This is implemented by an
option-critic architecture and trained by reinforcement learning algorithms. In
each timestep, an agent produces an option and a corresponding action according
to the policy. We also take advantage of macro-actions by incorporating classic
path-planning techniques to increase training efficiency. We demonstrate the
effectiveness of the proposed method on two publicly available 3D environment
datasets and the results show our method achieves higher coverage than
competing techniques with better efficiency.
- Abstract(参考訳): 自律的な3D環境探索はナビゲーションなどの様々なアプリケーションにとって基本的な課題である。
調査の目的は、新しい環境を調査し、その占有マップを効率的に構築することである。
本稿では,エージェントに「見回し」と「最前線のナビゲーション」の2つの行動選択を付与する新しい手法を提案する。
これはoption-critic architectureによって実装され、強化学習アルゴリズムによってトレーニングされる。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
また,学習効率を向上させるために古典的な経路計画手法を取り入れたマクロアクションも活用する。
提案手法の有効性を2つの公開3次元環境データセットに示すとともに,提案手法が効率良く競合技術よりも高いカバレッジを実現することを示す。
関連論文リスト
- Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal Guidance [46.8322564551124]
本稿では,新たなサブゴナルガイダンス学習戦略を提案する。
拡散戦略に基づくハイレベルポリシーを開発し、適切なサブゴールをウェイポイントとして生成する。
複雑なロボットナビゲーションと操作タスクについて評価する。
論文 参考訳(メタデータ) (2024-09-06T02:49:12Z) - Optimizing TD3 for 7-DOF Robotic Arm Grasping: Overcoming Suboptimality with Exploration-Enhanced Contrastive Learning [0.0]
空間空間の探索が不十分なため、7-DOFロボットアームを制御する際の最適下方策がもたらされる。
本稿では,新しい状態に遭遇する際の追加報酬を提供することで,探索を改善する,探索強化コントラスト学習(EECL)モジュールを提案する。
本研究では,ロボットスーツパンダ昇降作業において,試験環境における効率と収束速度の両面で,ベースラインのTD3を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-26T04:30:59Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - Learning Task-Agnostic Action Spaces for Movement Optimization [18.37812596641983]
そこで本研究では,物理ベースのアニメーションキャラクターのダイナミクスを探索する新しい手法を提案する。
目標状態としてアクションをパラメータ化し、目標に向かってエージェントの状態を駆動する短水平目標条件の低レベル制御ポリシーを学習する。
論文 参考訳(メタデータ) (2020-09-22T06:18:56Z) - Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path [15.679210057474922]
環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。
これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。
提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
論文 参考訳(メタデータ) (2020-03-03T17:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。