論文の概要: The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.08607v1
- Date: Sun, 16 Oct 2022 18:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:07:51.737595
- Title: The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習におけるタスク不特定性の影響
- Authors: Vindula Jayawardana, Catherine Tang, Sirui Li, Dajiang Suo, Cathy Wu
- Abstract要約: 深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。
MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
- 参考スコア(独自算出の注目度): 1.4711121887106535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluations of Deep Reinforcement Learning (DRL) methods are an integral part
of scientific progress of the field. Beyond designing DRL methods for general
intelligence, designing task-specific methods is becoming increasingly
prominent for real-world applications. In these settings, the standard
evaluation practice involves using a few instances of Markov Decision Processes
(MDPs) to represent the task. However, many tasks induce a large family of MDPs
owing to variations in the underlying environment, particularly in real-world
contexts. For example, in traffic signal control, variations may stem from
intersection geometries and traffic flow levels. The select MDP instances may
thus inadvertently cause overfitting, lacking the statistical power to draw
conclusions about the method's true performance across the family. In this
article, we augment DRL evaluations to consider parameterized families of MDPs.
We show that in comparison to evaluating DRL methods on select MDP instances,
evaluating the MDP family often yields a substantially different relative
ranking of methods, casting doubt on what methods should be considered
state-of-the-art. We validate this phenomenon in standard control benchmarks
and the real-world application of traffic signal control. At the same time, we
show that accurately evaluating on an MDP family is nontrivial. Overall, this
work identifies new challenges for empirical rigor in reinforcement learning,
especially as the outcomes of DRL trickle into downstream decision-making.
- Abstract(参考訳): 深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
汎用インテリジェンスのためのDRLメソッドの設計以外にも、タスク固有のメソッドの設計は現実のアプリケーションでますます顕著になりつつある。
これらの設定では、標準的な評価プラクティスでは、タスクを表現するためにMarkov Decision Processs(MDP)のインスタンスを使用する。
しかし、多くのタスクは、特に現実世界の状況において、基礎となる環境の変動により、大量のMDPを誘導する。
例えば、交通信号制御では、変化は交差点のジオメトリーと交通流レベルから生じることがある。
したがって、選択されたMDPインスタンスは必然的にオーバーフィッティングを引き起こし、家族間でメソッドの真のパフォーマンスに関する結論を引き出す統計的パワーが欠如している。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRL評価を増強する。
DRL法を選択 MDP インスタンスで評価した場合と比較すると,MDP ファミリーの評価ではメソッドの相対的ランクがかなり異なり,どのメソッドを最先端と見なすべきか疑問が呈されることが多い。
この現象を標準制御ベンチマークと実世界の交通信号制御に適用して検証する。
同時に,mdpファミリー上での精度評価が非自明であることを示す。
全体として、この研究は強化学習における経験的厳密性に対する新たな課題を明らかにし、特にDRLの結果が下流の意思決定に結びついている。
関連論文リスト
- Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Disentangled Representation Learning [49.90680972116791]
Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
我々は、モチベーション、定義、方法論、評価、アプリケーション、モデルデザインを含む様々な側面からDRLを包括的にレビューする。
論文 参考訳(メタデータ) (2022-11-21T18:14:38Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived
Non-Parametric MDPs [47.73837217824527]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z) - The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in
Reinforcement Learning [21.967763416902265]
本稿では,RL手法のモデルベース動作を評価するための実験装置を提案する。
我々のメトリクスは、たとえ手法が表現に乏しいとしても、モデルに基づく振る舞いを識別できる。
我々は、従来のマウンテンカータスクのバリエーションに基づいて、MuZeroのモデルに基づく振る舞いを評価するためにセットアップを使用する。
論文 参考訳(メタデータ) (2020-07-07T01:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。