論文の概要: GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL
- arxiv url: http://arxiv.org/abs/2110.15489v1
- Date: Fri, 29 Oct 2021 01:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 23:01:42.160851
- Title: GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL
- Title(参考訳): GalilAI: 安全な移動RLのための因果能動実験による外面分布検出
- Authors: Sumedh A Sontakke, Stephen Iota, Zizhao Hu, Arash Mehrjou, Laurent
Itti, Bernhard Sch\"olkopf
- Abstract要約: アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
- 参考スコア(独自算出の注目度): 11.058960131490903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-distribution (OOD) detection is a well-studied topic in supervised
learning. Extending the successes in supervised learning methods to the
reinforcement learning (RL) setting, however, is difficult due to the data
generating process - RL agents actively query their environment for data, and
the data are a function of the policy followed by the agent. An agent could
thus neglect a shift in the environment if its policy did not lead it to
explore the aspect of the environment that shifted. Therefore, to achieve safe
and robust generalization in RL, there exists an unmet need for OOD detection
through active experimentation. Here, we attempt to bridge this lacuna by first
defining a causal framework for OOD scenarios or environments encountered by RL
agents in the wild. Then, we propose a novel task: that of Out-of-Task
Distribution (OOTD) detection. We introduce an RL agent that actively
experiments in a test environment and subsequently concludes whether it is OOTD
or not. We name our method GalilAI, in honor of Galileo Galilei, as it
discovers, among other causal processes, that gravitational acceleration is
independent of the mass of a body. Finally, we propose a simple probabilistic
neural network baseline for comparison, which extends extant Model-Based RL. We
find that GalilAI outperforms the baseline significantly. See visualizations of
our method https://galil-ai.github.io/
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
しかし、教師付き学習手法の成功を強化学習(rl)設定に拡張することは、データ生成プロセスによって困難である。
したがって、エージェントは、そのポリシーが移行した環境の側面を探求しなかった場合、環境の変化を無視することができる。
したがって、rlにおける安全で堅牢な一般化を達成するためには、アクティブな実験によるood検出の必要性が十分にある。
ここでは,まず,野生の rl エージェントが遭遇する ood シナリオや環境の因果フレームワークを定義することで,この lacuna の橋渡しを試みる。
そこで我々は,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
実験環境において積極的に実験を行い,ootdか否かを判定するrlエージェントを提案する。
ガリレイはガリレオ・ガリレイ(galileo galilei)に敬意を表して、重力加速度が物体の質量から独立していることを発見した。
最後に,既存のモデルベースRLを拡張した,単純な確率論的ニューラルネットワークベースラインを提案する。
GalilAIがベースラインを大幅に上回っていることが分かりました。
私たちのメソッドの視覚化 https://galil-ai.github.io/ を参照してください。
関連論文リスト
- Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Testing of Deep Reinforcement Learning Agents with Surrogate Models [10.243488468625786]
近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。
本稿では,このようなエージェントを探索的に検証する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T06:21:39Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。