論文の概要: qRRT: Quality-Biased Incremental RRT for Optimal Motion Planning in
Non-Holonomic Systems
- arxiv url: http://arxiv.org/abs/2101.02635v1
- Date: Thu, 7 Jan 2021 17:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:31:37.588054
- Title: qRRT: Quality-Biased Incremental RRT for Optimal Motion Planning in
Non-Holonomic Systems
- Title(参考訳): qRRT:非ホロノミックシステムにおける最適運動計画のための品質バイアスインクリメンタルRT
- Authors: Nahas Pareekutty, Francis James, Balaraman Ravindran, Suril V. Shah
- Abstract要約: 本稿では,非ホロノミックシステムにおける最適動作計画のためのサンプリングベース手法を提案する。
経験を通じて学習する原則を使用して、ワークスペース内の領域のコスト対効果を推定します。
- 参考スコア(独自算出の注目度): 16.323822608442836
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a sampling-based method for optimal motion planning in
non-holonomic systems in the absence of known cost functions. It uses the
principle of learning through experience to deduce the cost-to-go of regions
within the workspace. This cost information is used to bias an incremental
graph-based search algorithm that produces solution trajectories. Iterative
improvement of cost information and search biasing produces solutions that are
proven to be asymptotically optimal. The proposed framework builds on
incremental Rapidly-exploring Random Trees (RRT) for random sampling-based
search and Reinforcement Learning (RL) to learn workspace costs. A series of
experiments were performed to evaluate and demonstrate the performance of the
proposed method.
- Abstract(参考訳): 本稿では,コスト関数のない非ホロノミックシステムにおける最適動作計画のためのサンプリングに基づく手法を提案する。
経験を通じて学習する原則を使用して、ワークスペース内の領域のコスト対ゴーを推論する。
このコスト情報は、解軌跡を生成するインクリメンタルグラフベースの探索アルゴリズムのバイアスに使用される。
コスト情報と検索バイアスの反復的な改善は漸近的に最適な解を生み出す。
提案フレームワークは、ランダムサンプリングに基づく探索と強化学習のためのRRT(Rapidly-Exploring Random Tree)に基づいて、ワークスペースコストを学習する。
提案手法の性能評価と実証のために, 一連の実験を行った。
関連論文リスト
- Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - Active Learning-Based Optimization of Scientific Experimental Design [1.9705094859539976]
Active Learning(AL)は、ラベル付きトレーニングインスタンスを少なくすることで、より精度の高い機械学習アルゴリズムである。
本稿では,提案したALスキームを用いた薬物応答データセットの振り返り研究を行う。
これは、手動で設定するのではなく、科学的な実験設計がALによって最適化可能であることを示している。
論文 参考訳(メタデータ) (2021-12-29T20:02:35Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Continuous Cost-to-Go Functions for Non-holonomic Systems [40.443409760112395]
本稿では,非ホロノミックシステムの連続的なコスト対ゴー関数を生成するための教師付き学習手法を提案する。
その結果,ネットワークは障害物を回避しつつ,非ホロノミックシステムに対して最適に近い軌道を生成できることがわかった。
論文 参考訳(メタデータ) (2021-03-20T12:31:08Z) - Decomposition and Adaptive Sampling for Data-Driven Inverse Linear
Optimization [12.610576072466895]
この研究は、線形プログラムの未知のコストベクトルを推論することが目的である逆線形最適化に対処する。
本稿では,既存の手法と比較して,制約の少ない,一般的に許容可能なコスト見積の集合の回復を可能にする,新たな問題の定式化を導入する。
論文 参考訳(メタデータ) (2020-09-16T22:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。