論文の概要: ADReFT: Adaptive Decision Repair for Safe Autonomous Driving via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.23960v1
- Date: Mon, 30 Jun 2025 15:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.124956
- Title: ADReFT: Adaptive Decision Repair for Safe Autonomous Driving via Reinforcement Fine-Tuning
- Title(参考訳): ADReFT:強化ファインチューニングによる安全な自動運転のための適応的意思決定修復
- Authors: Mingfei Cheng, Xiaofei Xie, Renzhi Wang, Yuan Zhou, Ming Hu,
- Abstract要約: 自律運転システムに対する適応決定修復(ADreFT)を提案する。
ADReFTは、失敗するテストからのオフライン学習を通じて安全クリティカルな状態を識別し、適切な緩和アクションを生成する。
評価結果から,ADReFTによる補修性能の向上が示唆された。
- 参考スコア(独自算出の注目度): 22.803044962152878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Driving Systems (ADSs) continue to face safety-critical risks due to the inherent limitations in their design and performance capabilities. Online repair plays a crucial role in mitigating such limitations, ensuring the runtime safety and reliability of ADSs. Existing online repair solutions enforce ADS compliance by transforming unacceptable trajectories into acceptable ones based on predefined specifications, such as rule-based constraints or training datasets. However, these approaches often lack generalizability, adaptability and tend to be overly conservative, resulting in ineffective repairs that not only fail to mitigate safety risks sufficiently but also degrade the overall driving experience. To address this issue, we propose Adaptive Decision Repair (ADReFT), a novel and effective repair method that identifies safety-critical states through offline learning from failed tests and generates appropriate mitigation actions to improve ADS safety. Specifically, ADReFT incorporates a transformer-based model with two joint heads, State Monitor and Decision Adapter, designed to capture complex driving environment interactions to evaluate state safety severity and generate adaptive repair actions. Given the absence of oracles for state safety identification, we first pretrain ADReFT using supervised learning with coarse annotations, i.e., labeling states preceding violations as positive samples and others as negative samples. It establishes ADReFT's foundational capability to mitigate safety-critical violations, though it may result in somewhat conservative mitigation strategies. Therefore, we subsequently finetune ADReFT using reinforcement learning to improve its initial capability and generate more precise and contextually appropriate repair decisions. Our evaluation results illustrate that ADReFT achieves better repair performance.
- Abstract(参考訳): 自律運転システム(ADS)は、設計と性能能力に固有の制限があるため、安全上重要なリスクに直面し続けている。
このような制限を緩和し、ADSのランタイム安全性と信頼性を確保する上で、オンライン修復は重要な役割を果たす。
既存のオンライン修復ソリューションは、許容できないトラジェクトリを、ルールベースの制約やトレーニングデータセットなど、事前に定義された仕様に基づいて許容できるものにすることで、ADSコンプライアンスを強制する。
しかしながら、これらのアプローチは一般化性や適応性に欠けることが多く、過度に保守的である傾向があるため、安全上のリスクを十分に軽減するだけでなく、全体の運転経験を損なうような非効率な修復がもたらされる。
そこで本研究では,障害テストからのオフライン学習を通じて安全クリティカルな状態を識別し,ADSの安全性を向上させるための適切な緩和行動を生成する,新しい効果的な修復法であるAdaptive Decision repair (ADReFT)を提案する。
具体的には、ADReFTは、2つのジョイントヘッドを持つトランスフォーマーベースのモデルであるState MonitorとDecision Adapterを組み込んで、複雑な運転環境相互作用をキャプチャして、状態安全性の重大さを評価し、適応的な修理動作を生成する。
安全診断のためのオラクルが存在しないことを踏まえ、我々はまず、粗いアノテーションを用いた教師あり学習を用いてADReFTを事前訓練し、例えば、前回の違反を正のサンプルとしてラベル付けし、その他のサンプルを負のサンプルとして評価する。
これはADReFTの基本的能力を確立し、安全に重大な違反を緩和するが、幾らか保守的な緩和戦略をもたらす可能性がある。
そこで我々は、強化学習を用いてADReFTを微調整し、その初期能力を改善し、より正確で文脈的に適切な修理決定を生成する。
評価結果から,ADReFTによる補修性能の向上が示唆された。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - FAWAC: Feasibility Informed Advantage Weighted Regression for Persistent Safety in Offline Reinforcement Learning [7.888219789657414]
安全なオフライン強化学習は、安全性の制約を守りながら累積報酬を最大化するポリシーを学ぶことを目的としている。
主な課題は安全性とパフォーマンスのバランスであり、特に政策がアウト・オブ・ディストリビューション状態や行動に直面する場合である。
本稿では,マルコフ決定過程における持続的安全性を優先するFAWAC(Feasibility Informed Advantage Weighted Actor-Critic)を提案する。
論文 参考訳(メタデータ) (2024-12-12T02:28:50Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Decictor: Towards Evaluating the Robustness of Decision-Making in Autonomous Driving Systems [26.235108102059378]
本稿では,自律走行システムの経路計画決定(PPD)の堅牢性を評価することに焦点を当てる。
主な課題は、PDの最適性を評価するための明確なオラクルの欠如と、最適でないPDにつながるシナリオを探すのが困難であることである。
非最適決定シナリオ(NoDS)を生成するための最初の手法であるDecictorを提案する。
ADSの非最適PD検出におけるDecictorの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-02-28T15:13:33Z) - Safety-aware Causal Representation for Trustworthy Offline Reinforcement
Learning in Autonomous Driving [33.672722472758636]
オフライン強化学習(RL)アプローチは、オフラインデータセットからのシーケンシャルな意思決定問題に対処する上で、顕著な効果を示す。
一般化可能なエンドツーエンド駆動ポリシの学習を容易にするために,saFety-aware strUctured Scenario representation (Fusion)を導入した。
様々な運転シナリオにおける実証的な証拠は、フュージョンが自律運転エージェントの安全性と一般化性を著しく向上させることを証明している。
論文 参考訳(メタデータ) (2023-10-31T18:21:24Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。