論文の概要: The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.08607v1
- Date: Sun, 16 Oct 2022 18:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:07:51.737595
- Title: The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習におけるタスク不特定性の影響
- Authors: Vindula Jayawardana, Catherine Tang, Sirui Li, Dajiang Suo, Cathy Wu
- Abstract要約: 深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。
MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
- 参考スコア(独自算出の注目度): 1.4711121887106535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluations of Deep Reinforcement Learning (DRL) methods are an integral part
of scientific progress of the field. Beyond designing DRL methods for general
intelligence, designing task-specific methods is becoming increasingly
prominent for real-world applications. In these settings, the standard
evaluation practice involves using a few instances of Markov Decision Processes
(MDPs) to represent the task. However, many tasks induce a large family of MDPs
owing to variations in the underlying environment, particularly in real-world
contexts. For example, in traffic signal control, variations may stem from
intersection geometries and traffic flow levels. The select MDP instances may
thus inadvertently cause overfitting, lacking the statistical power to draw
conclusions about the method's true performance across the family. In this
article, we augment DRL evaluations to consider parameterized families of MDPs.
We show that in comparison to evaluating DRL methods on select MDP instances,
evaluating the MDP family often yields a substantially different relative
ranking of methods, casting doubt on what methods should be considered
state-of-the-art. We validate this phenomenon in standard control benchmarks
and the real-world application of traffic signal control. At the same time, we
show that accurately evaluating on an MDP family is nontrivial. Overall, this
work identifies new challenges for empirical rigor in reinforcement learning,
especially as the outcomes of DRL trickle into downstream decision-making.
- Abstract(参考訳): 深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
汎用インテリジェンスのためのDRLメソッドの設計以外にも、タスク固有のメソッドの設計は現実のアプリケーションでますます顕著になりつつある。
これらの設定では、標準的な評価プラクティスでは、タスクを表現するためにMarkov Decision Processs(MDP)のインスタンスを使用する。
しかし、多くのタスクは、特に現実世界の状況において、基礎となる環境の変動により、大量のMDPを誘導する。
例えば、交通信号制御では、変化は交差点のジオメトリーと交通流レベルから生じることがある。
したがって、選択されたMDPインスタンスは必然的にオーバーフィッティングを引き起こし、家族間でメソッドの真のパフォーマンスに関する結論を引き出す統計的パワーが欠如している。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRL評価を増強する。
DRL法を選択 MDP インスタンスで評価した場合と比較すると,MDP ファミリーの評価ではメソッドの相対的ランクがかなり異なり,どのメソッドを最先端と見なすべきか疑問が呈されることが多い。
この現象を標準制御ベンチマークと実世界の交通信号制御に適用して検証する。
同時に,mdpファミリー上での精度評価が非自明であることを示す。
全体として、この研究は強化学習における経験的厳密性に対する新たな課題を明らかにし、特にDRLの結果が下流の意思決定に結びついている。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination [7.162274565861427]
動的治療体制におけるオフライン強化学習は 前例のない機会と課題が混在している。
不整合性や潜在的に決定的でない評価指標などの懸念を引用して、動的治療体制におけるRLの適用の再評価を論じる。
評価指標の変化やマルコフ決定過程(MDP)の定式化によって,RLアルゴリズムの性能が著しく変化することを示した。
論文 参考訳(メタデータ) (2024-05-28T20:03:18Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived
Non-Parametric MDPs [47.73837217824527]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。