論文の概要: Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection
- arxiv url: http://arxiv.org/abs/2404.07099v1
- Date: Wed, 10 Apr 2024 15:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:11:27.392762
- Title: Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection
- Title(参考訳): 強化学習におけるアウト・オブ・ディストリビューション検出の再考:評価と検出のための改善手法
- Authors: Linas Nasvytis, Kai Sandbrink, Jakob Foerster, Tim Franzmeyer, Christian Schroeder de Witt,
- Abstract要約: 強化学習(RL)におけるアウト・オブ・ディストリビューション(OOD)検出の問題点について検討する。
本稿では、RLにおけるOOD検出の用語の明確化を提案し、他の機械学習分野の文献と整合する。
OOD検出のための新しいベンチマークシナリオを提案し、エージェント環境ループの異なるコンポーネントに時間的自己相関を伴う異常を導入する。
DEXTERはベンチマークシナリオ間の異常を確実に識別でき、統計から得られた最先端のOOD検出器や高次元変化点検出器と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 3.7384109981836158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) algorithms have been successfully applied across numerous sequential decision-making problems, their generalization to unforeseen testing environments remains a significant concern. In this paper, we study the problem of out-of-distribution (OOD) detection in RL, which focuses on identifying situations at test time that RL agents have not encountered in their training environments. We first propose a clarification of terminology for OOD detection in RL, which aligns it with the literature from other machine learning domains. We then present new benchmark scenarios for OOD detection, which introduce anomalies with temporal autocorrelation into different components of the agent-environment loop. We argue that such scenarios have been understudied in the current literature, despite their relevance to real-world situations. Confirming our theoretical predictions, our experimental results suggest that state-of-the-art OOD detectors are not able to identify such anomalies. To address this problem, we propose a novel method for OOD detection, which we call DEXTER (Detection via Extraction of Time Series Representations). By treating environment observations as time series data, DEXTER extracts salient time series features, and then leverages an ensemble of isolation forest algorithms to detect anomalies. We find that DEXTER can reliably identify anomalies across benchmark scenarios, exhibiting superior performance compared to both state-of-the-art OOD detectors and high-dimensional changepoint detectors adopted from statistics.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは多くのシーケンシャルな意思決定問題に適用されているが、予期せぬテスト環境への一般化は依然として大きな懸念点である。
本稿では、RLエージェントがトレーニング環境で遭遇していないテスト時の状況を特定することに焦点を当て、RLにおけるアウト・オブ・ディストリビューション(OOD)検出の問題について検討する。
まず、RLにおけるOOD検出の用語の明確化を提案し、それを他の機械学習分野の文献と整合させる。
次に、エージェント環境ループの異なるコンポーネントに時間的自己相関を伴う異常を導入するOOD検出のための新しいベンチマークシナリオを提案する。
このようなシナリオは、現実の状況に関連があるにもかかわらず、現在の文献では過小評価されていると我々は主張する。
我々の理論的予測を裏付ける実験結果は、最先端のOOD検出器がそのような異常を識別できないことを示唆している。
この問題に対処するため,我々はDEXTER (Detection via extract of Time Series Representations) と呼ぶ新しいOOD検出法を提案する。
環境観測を時系列データとして扱うことで、DEXTERは健全な時系列特徴を抽出し、孤立林アルゴリズムのアンサンブルを利用して異常を検出する。
DEXTERはベンチマークシナリオ間の異常を確実に識別でき、統計から得られた最先端のOOD検出器や高次元変化点検出器と比較して優れた性能を示す。
関連論文リスト
- Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。
我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。
我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文 参考訳(メタデータ) (2024-08-29T17:55:07Z) - Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey [107.08019135783444]
VLM時代のAD, ND, OSR, OOD, ODの進化をカプセル化した一般OOD検出v2を提案する。
我々のフレームワークは、いくつかのフィールド不活性と統合により、要求される課題がOOD検出とADになっていることを明らかにしている。
論文 参考訳(メタデータ) (2024-07-31T17:59:58Z) - Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution [38.844580833635725]
アーキテクチャ設計におけるバイアスを緩和し,不均衡なOOD検出器を増強する訓練時間正規化手法を提案する。
提案手法は,CIFAR10-LT,CIFAR100-LT,ImageNet-LTのベンチマークに対して一貫した改良を行う。
論文 参考訳(メタデータ) (2024-07-23T12:28:59Z) - DIVERSIFY: A General Framework for Time Series Out-of-distribution
Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。
時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。
時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文 参考訳(メタデータ) (2023-08-04T12:27:11Z) - Beyond AUROC & co. for evaluating out-of-distribution detection
performance [50.88341818412508]
安全(r)AIとの関連性を考えると,OOD検出法の比較の基礎が実用的ニーズと整合しているかどうかを検討することが重要である。
我々は,IDとOODの分離が不十分なことを明示する新しい指標であるAUTC(Area Under the Threshold Curve)を提案する。
論文 参考訳(メタデータ) (2023-06-26T12:51:32Z) - Plugin estimators for selective classification with out-of-distribution
detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。
これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。
OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。
本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文 参考訳(メタデータ) (2023-01-29T07:45:17Z) - Benchmark for Out-of-Distribution Detection in Deep Reinforcement
Learning [0.0]
強化学習(RL)ベースのソリューションは、ロボティクス、ヘルスケア、産業自動化など、さまざまな分野に採用されている。
これらのソリューションがうまく機能する場合に焦点が当てられるが、アウトオブ分散インプットが提示されるとフェールする。
RLの分布検出の外部は一般的に文献ではあまり取り上げられておらず、このタスクにはベンチマークの欠如がある。
論文 参考訳(メタデータ) (2021-12-05T22:21:11Z) - Generalized Out-of-Distribution Detection: A Survey [83.0449593806175]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習システムの信頼性と安全性を確保するために重要である。
その他の問題として、異常検出(AD)、新規検出(ND)、オープンセット認識(OSR)、異常検出(OD)などがある。
まず、上記の5つの問題を含む一般化OOD検出という統合されたフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T17:59:41Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Algorithmic Frameworks for the Detection of High Density Anomalies [0.0]
高密度異常(英: high-density anomalies)は、データ空間の最も正常な領域に位置する不確定なケースである。
本研究では、教師なし検出のための非パラメトリックアルゴリズムフレームワークをいくつか導入する。
論文 参考訳(メタデータ) (2020-10-09T17:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。