論文の概要: SeRO: Self-Supervised Reinforcement Learning for Recovery from
Out-of-Distribution Situations
- arxiv url: http://arxiv.org/abs/2311.03651v1
- Date: Tue, 7 Nov 2023 01:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:15:24.523957
- Title: SeRO: Self-Supervised Reinforcement Learning for Recovery from
Out-of-Distribution Situations
- Title(参考訳): sero: 分散状態からの回復のための自己教師付き強化学習
- Authors: Chan Kim, Jaekyung Cho, Christophe Bobda, Seung-Woo Seo, and Seong-Woo
Kim
- Abstract要約: 強化学習を用いて訓練されたロボットエージェントは、アウト・オブ・ディストリビューション状態において信頼できない行動をとるという問題がある。
我々は,OODの状況から自己管理的に回復するためのエージェントの再訓練手法を提案する。
- 参考スコア(独自算出の注目度): 14.989996387900584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robotic agents trained using reinforcement learning have the problem of
taking unreliable actions in an out-of-distribution (OOD) state. Agents can
easily become OOD in real-world environments because it is almost impossible
for them to visit and learn the entire state space during training.
Unfortunately, unreliable actions do not ensure that agents perform their
original tasks successfully. Therefore, agents should be able to recognize
whether they are in OOD states and learn how to return to the learned state
distribution rather than continue to take unreliable actions. In this study, we
propose a novel method for retraining agents to recover from OOD situations in
a self-supervised manner when they fall into OOD states. Our in-depth
experimental results demonstrate that our method substantially improves the
agent's ability to recover from OOD situations in terms of sample efficiency
and restoration of the performance for the original tasks. Moreover, we show
that our method can retrain the agent to recover from OOD situations even when
in-distribution states are difficult to visit through exploration.
- Abstract(参考訳): 強化学習を用いて訓練されたロボットエージェントは、アウトオブディストリビューション(ood)状態において信頼性の低いアクションを取るという問題がある。
エージェントは、トレーニング中に状態空間全体を訪れて学ぶことはほとんど不可能であるため、現実世界環境では簡単にOODになることができます。
残念ながら、信頼できないアクションはエージェントが元のタスクをうまく実行しないことを保証する。
したがって、エージェントはOOD状態にあるかどうかを認識し、信頼できない行動を続けるのではなく、学習した状態分布に戻る方法を学ぶ必要がある。
そこで本研究では,OOD状態に陥ると,OOD状態から回復するエージェントを自己管理的に訓練する方法を提案する。
実験結果から,本手法は,OOD状況から元のタスクのサンプル効率と性能の回復の観点から,エージェントがOOD状態から回復する能力を大幅に向上することを示した。
また, 本手法は, 分布状態の探索による訪問が困難であった場合でも, ood状況から回復するようエージェントを再訓練できることを示した。
関連論文リスト
- Getting By Goal Misgeneralization With a Little Help From a Mentor [5.012314384895538]
本稿では, エージェントが不慣れな状況下で上司に助けを求めることが, この問題を軽減できるかどうかを考察する。
我々は,CoinRun環境においてPPOで訓練されたエージェントに焦点を当てた。
エージェントの内部状態に基づくメソッドは、積極的にヘルプを要求せず、ミスが既に発生するまで待つことに気付きました。
論文 参考訳(メタデータ) (2024-10-28T14:07:41Z) - Continual Unsupervised Out-of-Distribution Detection [5.019613806273252]
現在のアプローチでは、アウト・オブ・ディストリビューションのサンプルはトレーニング分布を補完する非集中分布に由来すると仮定している。
我々は,OOD分布に依存しないU-OOD検出器からスタートし,実際のOOD分布を考慮に入れた配置中を徐々に更新する手法を提案する。
本手法では,マハラノビス距離と最寄りのアプローチを組み合わせた新しいU-OODスコアリング関数を用いる。
論文 参考訳(メタデータ) (2024-06-04T13:57:34Z) - Out-of-distribution Detection Learning with Unreliable
Out-of-distribution Sources [73.28967478098107]
アウト・オブ・ディストリビューション(OOD)検出は、予測者が有効な予測を行うことができないOODデータをイン・ディストリビューション(ID)データとして識別する。
通常、OODパターンを識別できる予測器をトレーニングするために、実際のアウト・オブ・ディストリビューション(OOD)データを収集するのは困難である。
本稿では,Auxiliary Task-based OOD Learning (ATOL) というデータ生成に基づく学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:26:52Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is
All You Need [52.88953913542445]
簡単な再構築手法を用いることで,OOD検出の性能が大幅に向上する可能性が示唆された。
我々は、OOD検出フレームワーク(MOOD)のプリテキストタスクとして、マスケ画像モデリング(Masked Image Modeling)を採用する。
論文 参考訳(メタデータ) (2023-02-06T08:24:41Z) - Simultaneously Updating All Persistence Values in Reinforcement Learning [40.10326490326968]
強化学習では、学習エージェントの性能は時間的離散化の選択に敏感である。
本研究は,低パーシステンス体験と高パーシステンス体験の両方を効果的に活用できる小説『All-Persistence Bellman Operator』を創出する。
論文 参考訳(メタデータ) (2022-11-21T16:22:57Z) - DOODLER: Determining Out-Of-Distribution Likelihood from Encoder
Reconstructions [6.577622354490276]
本稿では,Of-Distribution Detectionのための新しい手法であるDOODLERを紹介し,検討する。
変分オートエンコーダを他のディープラーニングモデルと同じデータでトレーニングすることにより、VAEは、ID(In-Distribution)入力を正確に再構築することを学ぶが、OOD入力は再構築しない。
この分野の他の研究とは異なり、DOODLERはOODデータセットの存在について非常に弱い仮定しか必要とせず、より現実的なアプリケーションを可能にする。
論文 参考訳(メタデータ) (2021-09-27T14:54:55Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。