Fugu-MT 論文翻訳(概要): Offline Reinforcement Learning with OOD State Correction and OOD Action Suppression

論文の概要: Offline Reinforcement Learning with OOD State Correction and OOD Action Suppression

arxiv url: http://arxiv.org/abs/2410.19400v2
Date: Mon, 28 Oct 2024 07:12:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.332892
Title: Offline Reinforcement Learning with OOD State Correction and OOD Action Suppression
Title（参考訳）: OOD状態補正とOOD行動抑制によるオフライン強化学習
Authors: Yixiu Mao, Qi Wang, Chen Chen, Yun Qu, Xiangyang Ji,
Abstract要約: オフライン強化学習(RL)では、アウト・オブ・ディストリビューション(OOD)のアクション問題に対処することが焦点となっている。我々は、OOD状態がパフォーマンスを損なう問題もまだ過小評価されていないと論じている。オフライン RL における OOD 状態修正と OOD 動作抑制を統一する,シンプルで効果的な SCAS を提案する。
参考スコア（独自算出の注目度）: 47.598803055066554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In offline reinforcement learning (RL), addressing the out-of-distribution (OOD) action issue has been a focus, but we argue that there exists an OOD state issue that also impairs performance yet has been underexplored. Such an issue describes the scenario when the agent encounters states out of the offline dataset during the test phase, leading to uncontrolled behavior and performance degradation. To this end, we propose SCAS, a simple yet effective approach that unifies OOD state correction and OOD action suppression in offline RL. Technically, SCAS achieves value-aware OOD state correction, capable of correcting the agent from OOD states to high-value in-distribution states. Theoretical and empirical results show that SCAS also exhibits the effect of suppressing OOD actions. On standard offline RL benchmarks, SCAS achieves excellent performance without additional hyperparameter tuning. Moreover, benefiting from its OOD state correction feature, SCAS demonstrates enhanced robustness against environmental perturbations.
Abstract（参考訳）: オフライン強化学習(RL)では、オフ・オブ・ディストリビューション(OOD)のアクション問題に対処することが注目されているが、我々はOOD状態の問題がまだ過小評価されていないと論じている。このような問題は、エージェントがテストフェーズ中にオフラインデータセットから状態に遭遇したときのシナリオを記述し、制御不能な振る舞いとパフォーマンス低下につながる。この目的のために、オフラインRLにおけるOOD状態補正とOOD動作抑制を統一する、シンプルで効果的なアプローチであるSCASを提案する。技術的には、SCASは、OOD状態から高価値の分散状態へのエージェントの修正が可能な、OOD状態の修正を実現する。理論的および実証的な結果から、SCASはOOD作用を抑制する効果も示している。標準のオフラインRLベンチマークでは、SCASはハイパーパラメータチューニングを追加せずに優れたパフォーマンスを達成する。さらに、OOD状態補正機能を利用して、SCASは環境摂動に対する強靭性を示す。

関連論文リスト

Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach [11.836153064242811]
オフライン強化学習(RL)は、オンラインインタラクションなしで、固定データセットから意思決定ポリシーを学ぶことを目的としている。本稿では, OOD アクションを体系的に評価する新しい手法として, アドバンテージベースの拡散アクター・クリティカル (ADAC) を提案する。 ADACはD4RLベンチマークのほとんど全てのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-08T10:57:28Z)
HALO: Robust Out-of-Distribution Detection via Joint Optimisation [11.107924895663173]
リアルタイムシナリオにおける機械学習モデルの安全なデプロイには、効果的なアウト・オブ・ディストリビューション(OOD)検出が不可欠である。近年の研究では、OOD検出手法は敵攻撃に弱いことが示されており、高い精度のアプリケーションにおいて致命的な障害を引き起こす可能性がある。分類と検出性能を高める新たな損失項を導入する。私たちのアプローチはHALOと呼ばれ、既存のメソッドを超え、多くのデータセットとアタック設定で最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-02-27T04:40:18Z)
The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-12T07:02:04Z)
Rethinking Out-of-Distribution Detection on Imbalanced Data Distribution [38.844580833635725]
アーキテクチャ設計におけるバイアスを緩和し,不均衡なOOD検出器を増強する訓練時間正規化手法を提案する。提案手法は,CIFAR10-LT,CIFAR100-LT,ImageNet-LTのベンチマークに対して一貫した改良を行う。
論文参考訳（メタデータ） (2024-07-23T12:28:59Z)
A Survey on Evaluation of Out-of-Distribution Generalization [41.39827887375374]
アウト・オブ・ディストリビューション(OOD)の一般化は複雑で基本的な問題である。本報告は,OOD評価の総合的な評価を行うための最初の試みである。我々は,OOD性能試験,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類した。
論文参考訳（メタデータ） (2024-03-04T09:30:35Z)
AUTO: Adaptive Outlier Optimization for Online Test-Time OOD Detection [81.49353397201887]
オープンソースアプリケーションに機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠だ。我々は、未ラベルのオンラインデータをテスト時に直接利用してOOD検出性能を向上させる、テスト時OOD検出と呼ばれる新しいパラダイムを導入する。本稿では,入出力フィルタ,IDメモリバンク,意味的に一貫性のある目的からなる適応外乱最適化(AUTO)を提案する。
論文参考訳（メタデータ） (2023-03-22T02:28:54Z)
Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文参考訳（メタデータ） (2023-03-09T04:36:38Z)
Average of Pruning: Improving Performance and Stability of Out-of-Distribution Detection [37.43981354073841]
OOD検出の性能はトレーニング中の過度な適合と不安定性に悩まされている。モデル平均化とプルーニングからなるAoP(Average of Pruning)を提案し,不安定な挙動を緩和する。
論文参考訳（メタデータ） (2023-03-02T12:34:38Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
ATOM: Robustifying Out-of-distribution Detection Using Outlier Mining [51.19164318924997]
インフォメーション・アウトリエ・マイニングによるアドリアトレーニングは、OOD検出の堅牢性を向上させる。 ATOMは,古典的,敵対的なOOD評価タスクの幅広いファミリーの下で,最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-06-26T20:58:05Z)
Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。 ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文参考訳（メタデータ） (2020-03-21T17:46:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。