論文の概要: Guaranteeing Out-Of-Distribution Detection in Deep RL via Transition Estimation
- arxiv url: http://arxiv.org/abs/2503.05238v1
- Date: Fri, 07 Mar 2025 08:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:39.507824
- Title: Guaranteeing Out-Of-Distribution Detection in Deep RL via Transition Estimation
- Title(参考訳): 遷移推定による深部RLの外部分布検出の保証
- Authors: Mohit Prashant, Arvind Easwaran, Suman Das, Michael Yuhas,
- Abstract要約: 訓練環境は実生活環境を反映しない。
訓練システムは、訓練されたシステムが認識できない状態や不確実性を示す状態に遭遇した場合に警告を発するアウト・オブ・ディストリビューション検出器を備えていることが多い。
- 参考スコア(独自算出の注目度): 2.0836728378106883
- License:
- Abstract: An issue concerning the use of deep reinforcement learning (RL) agents is whether they can be trusted to perform reliably when deployed, as training environments may not reflect real-life environments. Anticipating instances outside their training scope, learning-enabled systems are often equipped with out-of-distribution (OOD) detectors that alert when a trained system encounters a state it does not recognize or in which it exhibits uncertainty. There exists limited work conducted on the problem of OOD detection within RL, with prior studies being unable to achieve a consensus on the definition of OOD execution within the context of RL. By framing our problem using a Markov Decision Process, we assume there is a transition distribution mapping each state-action pair to another state with some probability. Based on this, we consider the following definition of OOD execution within RL: A transition is OOD if its probability during real-life deployment differs from the transition distribution encountered during training. As such, we utilize conditional variational autoencoders (CVAE) to approximate the transition dynamics of the training environment and implement a conformity-based detector using reconstruction loss that is able to guarantee OOD detection with a pre-determined confidence level. We evaluate our detector by adapting existing benchmarks and compare it with existing OOD detection models for RL.
- Abstract(参考訳): 深層強化学習(RL)エージェントの使用に関する問題は、訓練環境が実生活環境を反映していないため、デプロイ時に確実に実行可能であるかどうかである。
学習可能なシステムは、トレーニング対象外のインスタンスを予測して、トレーニング対象のシステムが認識できない状態や不確実性を示す状態に遭遇した場合に警告を発するアウト・オブ・ディストリビューション(OOD)検出器を備えることが多い。
RL における OOD 検出の問題については,従来の研究では RL の文脈内での OOD 実行の定義に関するコンセンサスを達成できなかったため,限定的な研究がなされている。
マルコフ決定プロセスを用いて問題をフレーミングすることにより、ある確率で各状態-作用対を別の状態にマッピングする遷移分布が存在すると仮定する。
実運用時の確率がトレーニング中に発生する遷移分布と異なる場合、遷移はOODである。
そこで我々は,条件付き変分オートエンコーダ(CVAE)を用いて,トレーニング環境の遷移ダイナミクスを近似し,OOD検出を予め決定された信頼度レベルで保証できる再構成損失を用いた整合性に基づく検出器を実装する。
我々は,既存のベンチマークを適応させることで検出器を評価し,既存のRLのOOD検出モデルと比較した。
関連論文リスト
- Semantic or Covariate? A Study on the Intractable Case of Out-of-Distribution Detection [70.57120710151105]
ID分布のセマンティック空間をより正確に定義する。
また,OOD と ID の区別性を保証する "Tractable OOD" の設定も定義する。
論文 参考訳(メタデータ) (2024-11-18T03:09:39Z) - Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection [3.7384109981836158]
強化学習(RL)におけるアウト・オブ・ディストリビューション(OOD)検出の問題点について検討する。
本稿では、RLにおけるOOD検出の用語の明確化を提案し、他の機械学習分野の文献と整合する。
OOD検出のための新しいベンチマークシナリオを提案し、エージェント環境ループの異なるコンポーネントに時間的自己相関を伴う異常を導入する。
DEXTERはベンチマークシナリオ間の異常を確実に識別でき、統計から得られた最先端のOOD検出器や高次元変化点検出器と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-10T15:39:49Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - How to Enable Uncertainty Estimation in Proximal Policy Optimization [20.468991996052953]
既存の不確実性推定手法は, 都市深部RLで広く採用されていない。
本稿では,アクタ・クリティカルRLアルゴリズムにおける不確実性とOODの定義を提案する。
本稿では,最近提案されたMasksemblesの手法が,調査手法間で好適なバランスをとることを実験的に示す。
論文 参考訳(メタデータ) (2022-10-07T15:56:59Z) - Breaking Down Out-of-Distribution Detection: Many Methods Based on OOD
Training Data Estimate a Combination of the Same Core Quantities [104.02531442035483]
本研究の目的は,OOD検出手法の暗黙的なスコアリング機能を識別すると同時に,共通の目的を認識することである。
内分布と外分布の2値差はOOD検出問題のいくつかの異なる定式化と等価であることを示す。
また, 外乱露光で使用される信頼損失は, 理論上最適のスコアリング関数と非自明な方法で異なる暗黙的なスコアリング関数を持つことを示した。
論文 参考訳(メタデータ) (2022-06-20T16:32:49Z) - Benchmark for Out-of-Distribution Detection in Deep Reinforcement
Learning [0.0]
強化学習(RL)ベースのソリューションは、ロボティクス、ヘルスケア、産業自動化など、さまざまな分野に採用されている。
これらのソリューションがうまく機能する場合に焦点が当てられるが、アウトオブ分散インプットが提示されるとフェールする。
RLの分布検出の外部は一般的に文献ではあまり取り上げられておらず、このタスクにはベンチマークの欠如がある。
論文 参考訳(メタデータ) (2021-12-05T22:21:11Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z) - Uncertainty-Based Out-of-Distribution Classification in Deep
Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。
我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。
UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文 参考訳(メタデータ) (2019-12-31T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。