論文の概要: A Preference Learning Approach to Develop Safe and Personalizable
Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2311.02099v1
- Date: Mon, 30 Oct 2023 21:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:44:50.383911
- Title: A Preference Learning Approach to Develop Safe and Personalizable
Autonomous Vehicles
- Title(参考訳): 安全かつパーソナライズ可能な自動運転車開発のための選好学習アプローチ
- Authors: Ruya Karagulle and Nikos Arechiga and Andrew Best and Jonathan
DeCastro and Necmiye Ozay
- Abstract要約: 本研究は、自動運転車の交通規則の遵守を保証する選好学習手法を導入する。
ペア比較に基づく安全保証選好学習の問題を定式化する。
提案手法は,従来の選好学習法と比較して,選好の獲得に関して競争力のある結果をもたらす。
- 参考スコア(独自算出の注目度): 1.6686882054452723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces a preference learning method that ensures adherence to
traffic rules for autonomous vehicles. Our approach incorporates priority
ordering of signal temporal logic (STL) formulas, describing traffic rules,
into a learning framework. By leveraging the parametric weighted signal
temporal logic (PWSTL), we formulate the problem of safety-guaranteed
preference learning based on pairwise comparisons, and propose an approach to
solve this learning problem. Our approach finds a feasible valuation for the
weights of the given PWSTL formula such that, with these weights, preferred
signals have weighted quantitative satisfaction measures greater than their
non-preferred counterparts. The feasible valuation of weights given by our
approach leads to a weighted STL formula which can be used in
correct-and-custom-by-construction controller synthesis. We demonstrate the
performance of our method with human subject studies in two different simulated
driving scenarios involving a stop sign and a pedestrian crossing. Our approach
yields competitive results compared to existing preference learning methods in
terms of capturing preferences, and notably outperforms them when safety is
considered.
- Abstract(参考訳): 本研究は,自動運転車の交通規則遵守を保証する選好学習手法を提案する。
本手法では,トラフィックルールを記述する信号時相論理(stl)の優先順位順序付けを学習フレームワークに組み込む。
パラメトリック重み付き信号時間論理(PWSTL)を利用して、ペア比較に基づく安全保証優先学習の問題を定式化し、この学習問題を解決するためのアプローチを提案する。
提案手法は, 与えられたPWSTL式を重み付けし, これらの重み付けにより, 優先信号が非優先値よりも重み付けされた量的満足度測定値であることを示す。
提案手法により得られた重みの有意な評価は,重み付きSTL式に導かれる。
本手法は,停止標識と横断歩道を含む2つの異なる運転シナリオにおいて,被験者実験により性能を実証する。
提案手法は,既存の選好学習手法と比較して,嗜好を捉えて比較し,安全性を考慮すれば,特に勝っている。
関連論文リスト
- Collision Probability Distribution Estimation via Temporal Difference Learning [0.46085106405479537]
累積衝突確率分布を推定する先駆的なフレームワークであるCollisionProを紹介する。
我々は、強化学習の文脈において、我々の枠組みを定式化し、安全に配慮したエージェントの道を開く。
現実的な自律運転シミュレータを用いて,本フレームワークの総合的な検討を行った。
論文 参考訳(メタデータ) (2024-07-29T13:32:42Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Model-Reference Reinforcement Learning for Collision-Free Tracking
Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。
強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文 参考訳(メタデータ) (2020-08-17T12:15:15Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。