Fugu-MT 論文翻訳(概要): A Preference Learning Approach to Develop Safe and Personalizable Autonomous Vehicles

論文の概要: A Preference Learning Approach to Develop Safe and Personalizable Autonomous Vehicles

arxiv url: http://arxiv.org/abs/2311.02099v1
Date: Mon, 30 Oct 2023 21:52:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-12 19:44:50.383911
Title: A Preference Learning Approach to Develop Safe and Personalizable Autonomous Vehicles
Title（参考訳）: 安全かつパーソナライズ可能な自動運転車開発のための選好学習アプローチ
Authors: Ruya Karagulle and Nikos Arechiga and Andrew Best and Jonathan DeCastro and Necmiye Ozay
Abstract要約: 本研究は、自動運転車の交通規則の遵守を保証する選好学習手法を導入する。ペア比較に基づく安全保証選好学習の問題を定式化する。提案手法は,従来の選好学習法と比較して,選好の獲得に関して競争力のある結果をもたらす。
参考スコア（独自算出の注目度）: 1.6686882054452723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work introduces a preference learning method that ensures adherence to traffic rules for autonomous vehicles. Our approach incorporates priority ordering of signal temporal logic (STL) formulas, describing traffic rules, into a learning framework. By leveraging the parametric weighted signal temporal logic (PWSTL), we formulate the problem of safety-guaranteed preference learning based on pairwise comparisons, and propose an approach to solve this learning problem. Our approach finds a feasible valuation for the weights of the given PWSTL formula such that, with these weights, preferred signals have weighted quantitative satisfaction measures greater than their non-preferred counterparts. The feasible valuation of weights given by our approach leads to a weighted STL formula which can be used in correct-and-custom-by-construction controller synthesis. We demonstrate the performance of our method with human subject studies in two different simulated driving scenarios involving a stop sign and a pedestrian crossing. Our approach yields competitive results compared to existing preference learning methods in terms of capturing preferences, and notably outperforms them when safety is considered.
Abstract（参考訳）: 本研究は,自動運転車の交通規則遵守を保証する選好学習手法を提案する。本手法では,トラフィックルールを記述する信号時相論理(stl)の優先順位順序付けを学習フレームワークに組み込む。パラメトリック重み付き信号時間論理(PWSTL)を利用して、ペア比較に基づく安全保証優先学習の問題を定式化し、この学習問題を解決するためのアプローチを提案する。提案手法は, 与えられたPWSTL式を重み付けし, これらの重み付けにより, 優先信号が非優先値よりも重み付けされた量的満足度測定値であることを示す。提案手法により得られた重みの有意な評価は,重み付きSTL式に導かれる。本手法は,停止標識と横断歩道を含む2つの異なる運転シナリオにおいて,被験者実験により性能を実証する。提案手法は,既存の選好学習手法と比較して,嗜好を捉えて比較し,安全性を考慮すれば,特に勝っている。

関連論文リスト

A Framework for Learning Scoring Rules in Autonomous Driving Planning Systems [2.4578723416255754]
FLoRAは、時間論理で表される解釈可能なスコアリングルールを学ぶフレームワークである。本手法は,学習データに肯定的な例しか含まれていないにもかかわらず,運転行動の評価を効果的に学習する。クローズドループ計画シミュレーションの評価は、学習したスコアリングルールが既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-02-17T02:06:57Z)
Collision Probability Distribution Estimation via Temporal Difference Learning [0.46085106405479537]
累積衝突確率分布を推定する先駆的なフレームワークであるCollisionProを紹介する。我々は、強化学習の文脈において、我々の枠組みを定式化し、安全に配慮したエージェントの道を開く。現実的な自律運転シミュレータを用いて,本フレームワークの総合的な検討を行った。
論文参考訳（メタデータ） (2024-07-29T13:32:42Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Integrating Higher-Order Dynamics and Roadway-Compliance into Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文参考訳（メタデータ） (2023-09-25T22:30:18Z)
Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文参考訳（メタデータ） (2023-09-18T18:05:35Z)
End-to-End Intersection Handling using Multi-Agent Deep Reinforcement Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2021-04-28T07:54:40Z)
Congestion-aware Multi-agent Trajectory Prediction for Collision Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文参考訳（メタデータ） (2021-03-26T02:42:33Z)
Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。最先端アルゴリズムのオープンソース実装が採用されている。その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文参考訳（メタデータ） (2020-08-19T15:22:15Z)
Model-Reference Reinforcement Learning for Collision-Free Tracking Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文参考訳（メタデータ） (2020-08-17T12:15:15Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)
Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文参考訳（メタデータ） (2020-04-07T12:29:06Z)
Lane-Merging Using Policy-based Reinforcement Learning and Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文参考訳（メタデータ） (2020-03-06T12:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。