論文の概要: Probably Approximately Correct Vision-Based Planning using Motion
Primitives
- arxiv url: http://arxiv.org/abs/2002.12852v2
- Date: Tue, 10 Nov 2020 02:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:55:09.343459
- Title: Probably Approximately Correct Vision-Based Planning using Motion
Primitives
- Title(参考訳): 運動プリミティブを用いた視覚計画の近似的近似化
- Authors: Sushant Veer and Anirudha Majumdar
- Abstract要約: 本稿では,新しい環境に確実に一般化するビジョンベースプランナの学習手法を提案する。
Probably Aquatrect (PAC)-Bayesフレームワークを利用して、すべての環境にまたがるポリシーの期待コストの上限を得る。
PAC-Bayes上限の最小化は、新しい環境におけるパフォーマンスの証明書を伴うポリシーを訓練する。
- 参考スコア(独自算出の注目度): 7.728848025088798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an approach for learning vision-based planners that
provably generalize to novel environments (i.e., environments unseen during
training). We leverage the Probably Approximately Correct (PAC)-Bayes framework
to obtain an upper bound on the expected cost of policies across all
environments. Minimizing the PAC-Bayes upper bound thus trains policies that
are accompanied by a certificate of performance on novel environments. The
training pipeline we propose provides strong generalization guarantees for deep
neural network policies by (a) obtaining a good prior distribution on the space
of policies using Evolutionary Strategies (ES) followed by (b) formulating the
PAC-Bayes optimization as an efficiently-solvable parametric convex
optimization problem. We demonstrate the efficacy of our approach for producing
strong generalization guarantees for learned vision-based motion planners
through two simulated examples: (1) an Unmanned Aerial Vehicle (UAV) navigating
obstacle fields with an onboard vision sensor, and (2) a dynamic quadrupedal
robot traversing rough terrains with proprioceptive and exteroceptive sensors.
- Abstract(参考訳): 本稿では、新しい環境(トレーニング中に見つからない環境)に確実に一般化するビジョンベースプランナーの学習手法を提案する。
私たちは、おそらくほぼ正しい(pac)-bayesフレームワークを利用して、すべての環境にまたがるポリシーの期待されるコストの上限を取得します。
PAC-Bayes上限の最小化は、新しい環境におけるパフォーマンスの証明書を伴うポリシーを訓練する。
私たちが提案するトレーニングパイプラインは、ディープニューラルネットワークポリシの強力な一般化保証を提供する。
(a)進化戦略(es)を用いた政策空間上の良好な事前分布を得る
b) PAC-Bayes最適化を効率よく解けるパラメトリック凸最適化問題として定式化する。
提案手法は,(1)視覚センサ搭載の障害物場を飛行する無人航空機 (uav) と,(2)摂動・受動センサによる荒地を走行する動的四足歩行ロボットの2つのシミュレーション例を通して,学習した視覚ベースの運動計画者に対して,強汎化保証を作成するための手法の有効性を示す。
関連論文リスト
- PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven
Perturbed Gradient Descent [11.866227238721939]
本稿では,この最適化課題に対処する2段階ファインチューニング手法であるPACチューニングを提案する。
PACチューニングは、適切なパラメータ分布を学習するために、PAC-Bayes境界を直接最小化する。
第2に、PACチューニングは、トレーニング中にモデルパラメータに学習したノイズを注入することで勾配を調整し、摂動降下の変異をもたらす。
論文 参考訳(メタデータ) (2023-10-26T17:09:13Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Stronger Generalization Guarantees for Robot Learning by Combining
Generative Models and Real-World Data [5.935761705025763]
実世界の環境の有限データセットを活用することで、一般化保証を提供するためのフレームワークを提供する。
非線形・ハイブリッド力学とリッチ・センシング・モダリティを持つ2つのシミュレーションシステムに対するアプローチを実証する。
論文 参考訳(メタデータ) (2021-11-16T20:13:10Z) - Learning Provably Robust Motion Planners Using Funnel Libraries [6.671201304858938]
本稿では,新しい環境下での成功の確率論的保証を伴う運動プランナの学習方法を提案する。
一般化理論と頑健な制御からツールをまとめることにより、これを実現する。
2つのシミュレートされた例に対して強い保証を提供するためのアプローチの能力を実証する。
論文 参考訳(メタデータ) (2021-11-16T19:11:18Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z) - Generalization Guarantees for Imitation Learning [6.542289202349586]
模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
論文 参考訳(メタデータ) (2020-08-05T03:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。