論文の概要: A Safe Preference Learning Approach for Personalization with
Applications to Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2311.02099v2
- Date: Mon, 22 Jan 2024 20:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:54:08.223724
- Title: A Safe Preference Learning Approach for Personalization with
Applications to Autonomous Vehicles
- Title(参考訳): パーソナライゼーションのための安全な選好学習手法と自動運転車への応用
- Authors: Ruya Karagulle and Nikos Arechiga and Andrew Best and Jonathan
DeCastro and Necmiye Ozay
- Abstract要約: この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入している。
本稿では,ペア比較に基づく安全保証型選好学習の問題を定式化し,この課題を解決するためのアプローチを提案する。
提案手法は,従来の選好学習法と比較して,従来の選好学習法と比較して競争力があり,安全性を考慮した場合,特に優れる。
- 参考スコア(独自算出の注目度): 1.6686882054452723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces a preference learning method that ensures adherence to
given specifications, with an application to autonomous vehicles. Our approach
incorporates the priority ordering of Signal Temporal Logic (STL) formulas
describing traffic rules into a learning framework. By leveraging Parametric
Weighted Signal Temporal Logic (PWSTL), we formulate the problem of
safety-guaranteed preference learning based on pairwise comparisons and propose
an approach to solve this learning problem. Our approach finds a feasible
valuation for the weights of the given PWSTL formula such that, with these
weights, preferred signals have weighted quantitative satisfaction measures
greater than their non-preferred counterparts. The feasible valuation of
weights given by our approach leads to a weighted STL formula that can be used
in correct-and-custom-by-construction controller synthesis. We demonstrate the
performance of our method with a pilot human subject study in two different
simulated driving scenarios involving a stop sign and a pedestrian crossing.
Our approach yields competitive results compared to existing preference
learning methods in terms of capturing preferences, and notably outperforms
them when safety is considered.
- Abstract(参考訳): この研究は、自動運転車への適用とともに、所定の仕様に準拠することを保証する選好学習手法を導入する。
本手法では,トラフィックルールを記述する信号時相論理(stl)式を学習フレームワークに優先順序付けする。
パラメトリック重み付き信号時相論理(pwstl)を活用し,ペアワイズ比較に基づく安全性保証型選好学習の問題を定式化し,この課題を解決するためのアプローチを提案する。
提案手法は, 与えられたPWSTL式を重み付けし, これらの重み付けにより, 優先信号が非優先値よりも重み付けされた量的満足度測定値であることを示す。
提案手法により得られた重みの有意な評価は,重み付きSTL式に導かれる。
本手法は,停止標識と横断歩道を含む2つの運転シナリオをシミュレートし,被験者による被験者実験を用いて実演する。
提案手法は,既存の選好学習手法と比較して,嗜好を捉えて比較し,安全性を考慮すれば,特に勝っている。
関連論文リスト
- Collision Probability Distribution Estimation via Temporal Difference Learning [0.46085106405479537]
累積衝突確率分布を推定する先駆的なフレームワークであるCollisionProを紹介する。
我々は、強化学習の文脈において、我々の枠組みを定式化し、安全に配慮したエージェントの道を開く。
現実的な自律運転シミュレータを用いて,本フレームワークの総合的な検討を行った。
論文 参考訳(メタデータ) (2024-07-29T13:32:42Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Model-Reference Reinforcement Learning for Collision-Free Tracking
Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。
強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文 参考訳(メタデータ) (2020-08-17T12:15:15Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。