論文の概要: Benchmark for Out-of-Distribution Detection in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.02694v1
- Date: Sun, 5 Dec 2021 22:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 09:00:57.195356
- Title: Benchmark for Out-of-Distribution Detection in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における分散検出ベンチマーク
- Authors: Aaqib Parvez Mohammed, Matias Valdenegro-Toro
- Abstract要約: 強化学習(RL)ベースのソリューションは、ロボティクス、ヘルスケア、産業自動化など、さまざまな分野に採用されている。
これらのソリューションがうまく機能する場合に焦点が当てられるが、アウトオブ分散インプットが提示されるとフェールする。
RLの分布検出の外部は一般的に文献ではあまり取り上げられておらず、このタスクにはベンチマークの欠如がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement Learning (RL) based solutions are being adopted in a variety of
domains including robotics, health care and industrial automation. Most focus
is given to when these solutions work well, but they fail when presented with
out of distribution inputs. RL policies share the same faults as most machine
learning models. Out of distribution detection for RL is generally not well
covered in the literature, and there is a lack of benchmarks for this task. In
this work we propose a benchmark to evaluate OOD detection methods in a
Reinforcement Learning setting, by modifying the physical parameters of
non-visual standard environments or corrupting the state observation for visual
environments. We discuss ways to generate custom RL environments that can
produce OOD data, and evaluate three uncertainty methods for the OOD detection
task. Our results show that ensemble methods have the best OOD detection
performance with a lower standard deviation across multiple environments.
- Abstract(参考訳): 強化学習(RL)ベースのソリューションは、ロボティクス、ヘルスケア、産業自動化など、さまざまな分野に採用されている。
たいていの焦点は、これらのソリューションがうまく機能するときに与えられるが、分散入力から提示されると失敗する。
RLポリシーは、ほとんどの機械学習モデルと同じ欠点を共有している。
RLの分布検出の外部は一般的に文献ではあまり取り上げられておらず、このタスクにはベンチマークの欠如がある。
本研究では,非視覚標準環境の物理パラメータを変更したり,視覚環境の状態観察を損なうことにより,強化学習環境におけるood検出手法を評価するベンチマークを提案する。
我々は、OODデータを生成するカスタムRL環境の生成方法について議論し、OOD検出タスクにおける3つの不確実性の評価を行う。
その結果,アンサンブル法はOOD検出性能に優れ,複数の環境にまたがる標準偏差が低いことがわかった。
関連論文リスト
- Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。
我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。
我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文 参考訳(メタデータ) (2024-08-29T17:55:07Z) - Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection [3.7384109981836158]
強化学習(RL)におけるアウト・オブ・ディストリビューション(OOD)検出の問題点について検討する。
本稿では、RLにおけるOOD検出の用語の明確化を提案し、他の機械学習分野の文献と整合する。
OOD検出のための新しいベンチマークシナリオを提案し、エージェント環境ループの異なるコンポーネントに時間的自己相関を伴う異常を導入する。
DEXTERはベンチマークシナリオ間の異常を確実に識別でき、統計から得られた最先端のOOD検出器や高次元変化点検出器と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-10T15:39:49Z) - Expecting The Unexpected: Towards Broad Out-Of-Distribution Detection [9.656342063882555]
5種類の分布変化について検討し,OOD検出手法の性能評価を行った。
その結果,これらの手法は未知のクラスの検出に優れるが,他のタイプの分散シフトに遭遇した場合,その性能は不整合であることがわかった。
我々は、より一貫性があり包括的なOOD検出ソリューションを提供するアンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-22T14:52:44Z) - AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection [81.49353397201887]
オープンソースアプリケーションに機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。
我々は、未ラベルのオンラインデータをテスト時に直接利用してOOD検出性能を向上させる、テスト時OOD検出と呼ばれる新しいパラダイムを導入する。
本稿では,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Unsupervised Evaluation of Out-of-distribution Detection: A Data-centric
Perspective [55.45202687256175]
アウト・オブ・ディストリビューション(OOD)検出法は、個々のテストサンプルがイン・ディストリビューション(IND)なのかOODなのかという、試験対象の真実を持っていると仮定する。
本稿では,OOD検出における教師なし評価問題を初めて紹介する。
我々は,OOD検出性能の教師なし指標としてGscoreを計算する3つの方法を提案する。
論文 参考訳(メタデータ) (2023-02-16T13:34:35Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Training OOD Detectors in their Natural Habitats [31.565635192716712]
アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。
近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。
我々は、自然にIDとOODの両方のサンプルで構成される野生の混合データを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T15:38:39Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and
Results [21.054448068345348]
本研究では,時間的プロセスの動的変化をトレーニング・分散力学と比較して検出するOODD(Out-of-distriion dynamics)の問題点について検討する。
この問題は、学習したコントローラがトレーニング環境に過度に適合する、深いRLの文脈において特に重要である。
最初のコントリビューションは、OODDのさまざまなタイプと強度を持つ共通RL環境から派生したOODDベンチマークのセットを設計することです。
第2のコントリビューションは、繰り返し暗黙的量子化ネットワーク(RIQN)に基づいて、OODD検出のための自己回帰予測エラーを監視する強力なOODDベースラインアプローチを設計することである。
論文 参考訳(メタデータ) (2021-07-11T06:40:02Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。