論文の概要: Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and
Results
- arxiv url: http://arxiv.org/abs/2107.04982v1
- Date: Sun, 11 Jul 2021 06:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:16:38.222135
- Title: Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and
Results
- Title(参考訳): 分布外ダイナミクス検出:RL関連ベンチマークと結果
- Authors: Mohamad H Danesh and Alan Fern
- Abstract要約: 本研究では,時間的プロセスの動的変化をトレーニング・分散力学と比較して検出するOODD(Out-of-distriion dynamics)の問題点について検討する。
この問題は、学習したコントローラがトレーニング環境に過度に適合する、深いRLの文脈において特に重要である。
最初のコントリビューションは、OODDのさまざまなタイプと強度を持つ共通RL環境から派生したOODDベンチマークのセットを設計することです。
第2のコントリビューションは、繰り返し暗黙的量子化ネットワーク(RIQN)に基づいて、OODD検出のための自己回帰予測エラーを監視する強力なOODDベースラインアプローチを設計することである。
- 参考スコア(独自算出の注目度): 21.054448068345348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of out-of-distribution dynamics (OODD) detection, which
involves detecting when the dynamics of a temporal process change compared to
the training-distribution dynamics. This is relevant to applications in
control, reinforcement learning (RL), and multi-variate time-series, where
changes to test time dynamics can impact the performance of learning
controllers/predictors in unknown ways. This problem is particularly important
in the context of deep RL, where learned controllers often overfit to the
training environment. Currently, however, there is a lack of established OODD
benchmarks for the types of environments commonly used in RL research. Our
first contribution is to design a set of OODD benchmarks derived from common RL
environments with varying types and intensities of OODD. Our second
contribution is to design a strong OODD baseline approach based on recurrent
implicit quantile networks (RIQNs), which monitors autoregressive prediction
errors for OODD detection. Our final contribution is to evaluate the RIQN
approach on the benchmarks to provide baseline results for future comparison.
- Abstract(参考訳): 本研究では,時間的プロセスの動的変化をトレーニング・分散力学と比較して検出するOODD(Out-of-distriion dynamics)の問題点について検討する。
これは制御、強化学習(RL)、多変量時系列の応用に関係しており、テスト時間ダイナミクスの変更は未知の方法で学習コントローラや予測器の性能に影響を与える可能性がある。
この問題は、学習したコントローラがトレーニング環境に過度に適合する、深いRLの文脈において特に重要である。
しかし、現在RL研究でよく使われる環境の種類について、OODDベンチマークが確立されていない。
最初のコントリビューションは、OODDのさまざまなタイプと強度を持つ共通RL環境から派生したOODDベンチマークを設計することです。
第2のコントリビューションは、繰り返し暗黙的量子化ネットワーク(RIQN)に基づいて、OODD検出のための自己回帰予測エラーを監視する強力なOODDベースラインアプローチを設計することである。
最後のコントリビューションは、RIQNアプローチをベンチマークで評価し、将来の比較のためのベースライン結果を提供することです。
関連論文リスト
- Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution [38.844580833635725]
アーキテクチャ設計におけるバイアスを緩和し,不均衡なOOD検出器を増強する訓練時間正規化手法を提案する。
提案手法は,CIFAR10-LT,CIFAR100-LT,ImageNet-LTのベンチマークに対して一貫した改良を行う。
論文 参考訳(メタデータ) (2024-07-23T12:28:59Z) - Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination [7.162274565861427]
動的治療体制におけるオフライン強化学習は 前例のない機会と課題が混在している。
不整合性や潜在的に決定的でない評価指標などの懸念を引用して、動的治療体制におけるRLの適用の再評価を論じる。
評価指標の変化やマルコフ決定過程(MDP)の定式化によって,RLアルゴリズムの性能が著しく変化することを示した。
論文 参考訳(メタデータ) (2024-05-28T20:03:18Z) - Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection [3.7384109981836158]
強化学習(RL)におけるアウト・オブ・ディストリビューション(OOD)検出の問題点について検討する。
本稿では、RLにおけるOOD検出の用語の明確化を提案し、他の機械学習分野の文献と整合する。
OOD検出のための新しいベンチマークシナリオを提案し、エージェント環境ループの異なるコンポーネントに時間的自己相関を伴う異常を導入する。
DEXTERはベンチマークシナリオ間の異常を確実に識別でき、統計から得られた最先端のOOD検出器や高次元変化点検出器と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-10T15:39:49Z) - DIVERSIFY: A General Framework for Time Series Out-of-distribution
Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。
時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。
時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文 参考訳(メタデータ) (2023-08-04T12:27:11Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection [81.49353397201887]
オープンソースアプリケーションに機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。
我々は、未ラベルのオンラインデータをテスト時に直接利用してOOD検出性能を向上させる、テスト時OOD検出と呼ばれる新しいパラダイムを導入する。
本稿では,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Benchmark for Out-of-Distribution Detection in Deep Reinforcement
Learning [0.0]
強化学習(RL)ベースのソリューションは、ロボティクス、ヘルスケア、産業自動化など、さまざまな分野に採用されている。
これらのソリューションがうまく機能する場合に焦点が当てられるが、アウトオブ分散インプットが提示されるとフェールする。
RLの分布検出の外部は一般的に文献ではあまり取り上げられておらず、このタスクにはベンチマークの欠如がある。
論文 参考訳(メタデータ) (2021-12-05T22:21:11Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。