論文の概要: Comparison of Model-Free and Model-Based Learning-Informed Planning for
PointGoal Navigation
- arxiv url: http://arxiv.org/abs/2212.08801v1
- Date: Sat, 17 Dec 2022 05:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:35:41.456711
- Title: Comparison of Model-Free and Model-Based Learning-Informed Planning for
PointGoal Navigation
- Title(参考訳): ポイントゴールナビゲーションにおけるモデルフリーとモデルベース学習インフォームドプランニングの比較
- Authors: Yimeng Li, Arnab Debnath, Gregory J. Stein, and Jana Kosecka
- Abstract要約: 我々は,最先端のDeep Reinforcement Learningに基づくアプローチと,ポイントゴールナビゲーション問題に対する部分観測可能なマルコフ決定プロセス(POMDP)の定式化を比較した。
私たちは、SOTA DD-PPOアプローチよりも若干パフォーマンスが劣るが、データが少ないことを示しています。
- 参考スコア(独自算出の注目度): 10.797100163772482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years several learning approaches to point goal navigation in
previously unseen environments have been proposed. They vary in the
representations of the environments, problem decomposition, and experimental
evaluation. In this work, we compare the state-of-the-art Deep Reinforcement
Learning based approaches with Partially Observable Markov Decision Process
(POMDP) formulation of the point goal navigation problem. We adapt the (POMDP)
sub-goal framework proposed by [1] and modify the component that estimates
frontier properties by using partial semantic maps of indoor scenes built from
images' semantic segmentation. In addition to the well-known completeness of
the model-based approach, we demonstrate that it is robust and efficient in
that it leverages informative, learned properties of the frontiers compared to
an optimistic frontier-based planner. We also demonstrate its data efficiency
compared to the end-to-end deep reinforcement learning approaches. We compare
our results against an optimistic planner, ANS and DD-PPO on Matterport3D
dataset using the Habitat Simulator. We show comparable, though slightly worse
performance than the SOTA DD-PPO approach, yet with far fewer data.
- Abstract(参考訳): 近年,未確認環境におけるゴールナビゲーションを指差す学習手法が提案されている。
それらは環境の表現、問題分解、実験的な評価によって異なる。
本研究では,最先端のDeep Reinforcement Learningに基づくアプローチと,ポイントゴールナビゲーション問題に対する部分観測可能なマルコフ決定プロセス(POMDP)を比較した。
本稿では,画像のセマンティックセグメンテーションから構築した屋内シーンのセマンティックマップを用いて,フロンティア特性を推定するコンポーネントを[1]で提案したサブゴールフレームワーク(POMDP)に適応させる。
モデルベースアプローチの周知の完全性に加えて、フロンティアの有益で学習された特性を楽観的なフロンティアベースのプランナーと比較して活用する上で、堅牢で効率的であることを実証する。
また,エンド・ツー・エンドの深層強化学習手法と比較して,そのデータ効率を示す。
本研究では,Habitat Simulator を用いた Matterport3D データセット上で,楽観的なプランナーである ANS と DD-PPO を比較した。
我々は、SOTA DD-PPOアプローチよりも若干パフォーマンスが劣るが、データが少ないことを示す。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z) - Wasserstein Learning of Determinantal Point Processes [14.790452282691252]
本稿では,観測された部分集合からなるモデルとデータ間のワッサーシュタイン距離を最小化する新しいDPP学習手法を提案する。
MLEを用いて学習したDPPと比較して,我々のWasserstein学習アプローチは,生成タスクにおける予測性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2020-11-19T08:30:57Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。