論文の概要: Enhance Exploration in Safe Reinforcement Learning with Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2503.10318v1
- Date: Thu, 13 Mar 2025 12:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:26.959640
- Title: Enhance Exploration in Safe Reinforcement Learning with Contrastive Representation Learning
- Title(参考訳): コントラスト表現学習を用いた安全強化学習におけるエンハンス探索
- Authors: Duc Kien Doan, Bang Giang Le, Viet Cuong Ta,
- Abstract要約: 安全な強化学習では、エージェントは探索行動と安全制約のバランスをとる必要がある。
本研究では,スパース・リワード環境における探索と安全優先行動のバランスをとるために,効率的な状態表現を学習することを目的とする。
- 参考スコア(独自算出の注目度): 0.1843404256219181
- License:
- Abstract: In safe reinforcement learning, agent needs to balance between exploration actions and safety constraints. Following this paradigm, domain transfer approaches learn a prior Q-function from the related environments to prevent unsafe actions. However, because of the large number of false positives, some safe actions are never executed, leading to inadequate exploration in sparse-reward environments. In this work, we aim to learn an efficient state representation to balance the exploration and safety-prefer action in a sparse-reward environment. Firstly, the image input is mapped to latent representation by an auto-encoder. A further contrastive learning objective is employed to distinguish safe and unsafe states. In the learning phase, the latent distance is used to construct an additional safety check, which allows the agent to bias the exploration if it visits an unsafe state. To verify the effectiveness of our method, the experiment is carried out in three navigation-based MiniGrid environments. The result highlights that our method can explore the environment better while maintaining a good balance between safety and efficiency.
- Abstract(参考訳): 安全な強化学習では、エージェントは探索行動と安全制約のバランスをとる必要がある。
このパラダイムに従って、ドメイン転送アプローチは、関連する環境から事前のQ-関数を学習し、安全でない動作を防ぐ。
しかし、多数の偽陽性のため、安全な行動は実行されず、スパース・リワード環境での探索が不十分になる。
本研究では,スパース・リワード環境における探索と安全優先行動のバランスをとるために,効率的な状態表現を学習することを目的とする。
まず、画像入力を自動エンコーダにより潜在表現にマッピングする。
より対照的な学習目的は、安全な状態と安全でない状態を区別するために用いられる。
学習フェーズでは、潜伏距離を使用して追加の安全チェックを構築する。
本手法の有効性を検証するため,3つのナビゲーションベースのMiniGrid環境で実験を行った。
その結果, 安全性と効率のバランスを保ちながら, 環境をよく探索できることがわかった。
関連論文リスト
- Learning to explore when mistakes are not allowed [1.179778723980276]
本研究では,悪質なミスを犯すリスクを伴わずに探索する目標条件付き行動の学習を可能にする手法を提案する。
リスクのない探査はパラドックス的に見えるが、環境力学はしばしば宇宙で均一である。
本手法をシミュレーション環境で評価し,目標空間のかなりのカバレッジを提供するだけでなく,ミスの発生を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2025-02-19T15:11:51Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。