論文の概要: DIAL: Distribution-Informed Adaptive Learning of Multi-Task Constraints for Safety-Critical Systems
- arxiv url: http://arxiv.org/abs/2501.18086v1
- Date: Thu, 30 Jan 2025 01:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:21.213014
- Title: DIAL: Distribution-Informed Adaptive Learning of Multi-Task Constraints for Safety-Critical Systems
- Title(参考訳): DIAL: 安全クリティカルシステムのためのマルチタスク制約の分散インフォームド適応学習
- Authors: Se-Wook Yoo, Seung-Woo Seo,
- Abstract要約: 自律運転のような複雑な現実世界のタスクの安全性を確保するための事前定義された制約関数。
近年の研究では、事前取得したタスク非依存の知識を活用して、関連するタスクの安全性とサンプル効率を両立させる可能性を強調している。
複数のタスクにまたがる共有制約分布を学習するための新しい手法を提案する。
提案手法は,模擬学習を通じて共有制約を特定し,学習分布内のリスクレベルを調整することによって,新たなタスクに適応する。
- 参考スコア(独自算出の注目度): 13.93024489228903
- License:
- Abstract: Safe reinforcement learning has traditionally relied on predefined constraint functions to ensure safety in complex real-world tasks, such as autonomous driving. However, defining these functions accurately for varied tasks is a persistent challenge. Recent research highlights the potential of leveraging pre-acquired task-agnostic knowledge to enhance both safety and sample efficiency in related tasks. Building on this insight, we propose a novel method to learn shared constraint distributions across multiple tasks. Our approach identifies the shared constraints through imitation learning and then adapts to new tasks by adjusting risk levels within these learned distributions. This adaptability addresses variations in risk sensitivity stemming from expert-specific biases, ensuring consistent adherence to general safety principles even with imperfect demonstrations. Our method can be applied to control and navigation domains, including multi-task and meta-task scenarios, accommodating constraints such as maintaining safe distances or adhering to speed limits. Experimental results validate the efficacy of our approach, demonstrating superior safety performance and success rates compared to baselines, all without requiring task-specific constraint definitions. These findings underscore the versatility and practicality of our method across a wide range of real-world tasks.
- Abstract(参考訳): 安全強化学習は伝統的に、自律運転のような複雑な現実世界のタスクの安全性を確保するために、事前に定義された制約関数に依存してきた。
しかし、これらの関数を様々なタスクに対して正確に定義することは永続的な課題である。
近年の研究では、事前取得したタスク非依存の知識を活用して、関連するタスクの安全性とサンプル効率を両立させる可能性を強調している。
そこで本研究では,複数のタスクにまたがる共有制約分布を学習するための新しい手法を提案する。
提案手法は,模擬学習を通じて共有制約を特定し,学習分布内のリスクレベルを調整することで,新しいタスクに適応する。
この適応性は、専門家特有の偏見から生じるリスク感受性の変化に対処し、不完全なデモンストレーションであっても、一般的な安全原則に一貫して固執することを保証する。
提案手法は,マルチタスクシナリオやメタタスクシナリオ,安全な距離の確保や速度制限の付着といった制約の緩和など,制御領域やナビゲーション領域に適用できる。
提案手法の有効性を検証し, タスク固有の制約定義を必要とせず, ベースラインよりも優れた安全性性能と成功率を示した。
これらの結果から,本手法の汎用性と実用性は,多岐にわたる実世界の課題にまたがって評価された。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - A CMDP-within-online framework for Meta-Safe Reinforcement Learning [23.57318558833378]
CMDP-within-onlineフレームワークを用いたメタセーフ強化学習(Meta-SRL)の課題について検討する。
我々は,勾配に基づくメタ学習を用いて,目に見えない(最適性ギャップ)と制約違反に対する平均的後悔境界を求める。
本稿では,タスク内最適性ギャップと制約違反の上限において,不正確なオンライン学習を行うメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:28:42Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Towards Interpretable Reinforcement Learning with Constrained Normalizing Flow Policies [5.6872893893453105]
強化学習ポリシーは一般にブラックボックスニューラルネットワークによって表現される。
本稿では,フローポリシを解釈可能かつ安全な構成ポリシーモデルとして,制約付き正規化を提案する。
論文 参考訳(メタデータ) (2024-05-02T11:40:15Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee
with Differentiable Convex Programming [4.825619788907192]
本稿では,メタラーニングアプローチ(ラーニング・トゥ・ラーン)のレンズを通して制約された問題を解くことによって,非定常環境における安全性を確保するためのユニークな課題について考察する。
まず,複数タスクにまたがるコンベックス制約付きポリシー更新を連続的に採用し,エンドツーエンドの差別化を可能にすることで,制約のあるシナリオにおけるメタラーニングを可能にする。
論文 参考訳(メタデータ) (2023-12-15T21:55:43Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Safety Aware Reinforcement Learning (SARL) [4.4617911035181095]
我々は、エージェントが第一のタスクでポリシーを実行しながら、望ましくない副作用を引き起こすことができるシナリオの研究に焦点をあてる。
与えられた環境ダイナミクスに対して複数のタスクを定義することができるので、2つの重要な課題があります。
仮想安全なエージェントが主報酬に基づくエージェントの行動を調整し、副作用を最小限に抑えるためのフレームワークである安全意識強化学習(SARL)を提案する。
論文 参考訳(メタデータ) (2020-10-06T16:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。