論文の概要: Offline Reinforcement Learning with OOD State Correction and OOD Action Suppression
- arxiv url: http://arxiv.org/abs/2410.19400v2
- Date: Mon, 28 Oct 2024 07:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:57.985191
- Title: Offline Reinforcement Learning with OOD State Correction and OOD Action Suppression
- Title(参考訳): OOD状態補正とOOD行動抑制によるオフライン強化学習
- Authors: Yixiu Mao, Qi Wang, Chen Chen, Yun Qu, Xiangyang Ji,
- Abstract要約: オフライン強化学習(RL)では、アウト・オブ・ディストリビューション(OOD)のアクション問題に対処することが焦点となっている。
我々は、OOD状態がパフォーマンスを損なう問題もまだ過小評価されていないと論じている。
オフライン RL における OOD 状態修正と OOD 動作抑制を統一する,シンプルで効果的な SCAS を提案する。
- 参考スコア(独自算出の注目度): 47.598803055066554
- License:
- Abstract: In offline reinforcement learning (RL), addressing the out-of-distribution (OOD) action issue has been a focus, but we argue that there exists an OOD state issue that also impairs performance yet has been underexplored. Such an issue describes the scenario when the agent encounters states out of the offline dataset during the test phase, leading to uncontrolled behavior and performance degradation. To this end, we propose SCAS, a simple yet effective approach that unifies OOD state correction and OOD action suppression in offline RL. Technically, SCAS achieves value-aware OOD state correction, capable of correcting the agent from OOD states to high-value in-distribution states. Theoretical and empirical results show that SCAS also exhibits the effect of suppressing OOD actions. On standard offline RL benchmarks, SCAS achieves excellent performance without additional hyperparameter tuning. Moreover, benefiting from its OOD state correction feature, SCAS demonstrates enhanced robustness against environmental perturbations.
- Abstract(参考訳): オフライン強化学習(RL)では、オフ・オブ・ディストリビューション(OOD)のアクション問題に対処することが注目されているが、我々はOOD状態の問題がまだ過小評価されていないと論じている。
このような問題は、エージェントがテストフェーズ中にオフラインデータセットから状態に遭遇したときのシナリオを記述し、制御不能な振る舞いとパフォーマンス低下につながる。
この目的のために、オフラインRLにおけるOOD状態補正とOOD動作抑制を統一する、シンプルで効果的なアプローチであるSCASを提案する。
技術的には、SCASは、OOD状態から高価値の分散状態へのエージェントの修正が可能な、OOD状態の修正を実現する。
理論的および実証的な結果から、SCASはOOD作用を抑制する効果も示している。
標準のオフラインRLベンチマークでは、SCASはハイパーパラメータチューニングを追加せずに優れたパフォーマンスを達成する。
さらに、OOD状態補正機能を利用して、SCASは環境摂動に対する強靭性を示す。
関連論文リスト
- The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:02:04Z) - Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution [38.844580833635725]
アーキテクチャ設計におけるバイアスを緩和し,不均衡なOOD検出器を増強する訓練時間正規化手法を提案する。
提案手法は,CIFAR10-LT,CIFAR100-LT,ImageNet-LTのベンチマークに対して一貫した改良を行う。
論文 参考訳(メタデータ) (2024-07-23T12:28:59Z) - A Survey on Evaluation of Out-of-Distribution Generalization [41.39827887375374]
アウト・オブ・ディストリビューション(OOD)の一般化は複雑で基本的な問題である。
本報告は,OOD評価の総合的な評価を行うための最初の試みである。
我々は,OOD性能試験,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類した。
論文 参考訳(メタデータ) (2024-03-04T09:30:35Z) - AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection [81.49353397201887]
オープンソースアプリケーションに機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。
我々は、未ラベルのオンラインデータをテスト時に直接利用してOOD検出性能を向上させる、テスト時OOD検出と呼ばれる新しいパラダイムを導入する。
本稿では,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Average of Pruning: Improving Performance and Stability of
Out-of-Distribution Detection [37.43981354073841]
OOD検出の性能はトレーニング中の過度な適合と不安定性に悩まされている。
モデル平均化とプルーニングからなるAoP(Average of Pruning)を提案し,不安定な挙動を緩和する。
論文 参考訳(メタデータ) (2023-03-02T12:34:38Z) - ATOM: Robustifying Out-of-distribution Detection Using Outlier Mining [51.19164318924997]
インフォメーション・アウトリエ・マイニングによるアドリアトレーニングは、OOD検出の堅牢性を向上させる。
ATOMは,古典的,敵対的なOOD評価タスクの幅広いファミリーの下で,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-26T20:58:05Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。