論文の概要: Evaluating the Performance of Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2006.16958v2
- Date: Thu, 13 Aug 2020 16:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:53:22.014228
- Title: Evaluating the Performance of Reinforcement Learning Algorithms
- Title(参考訳): 強化学習アルゴリズムの性能評価
- Authors: Scott M. Jordan, Yash Chandak, Daniel Cohen, Mengxue Zhang, Philip S.
Thomas
- Abstract要約: 性能評価は、強化学習におけるアルゴリズムの進歩の定量化に重要である。
最近の分析では、報告された結果が矛盾することが多く、複製が困難であることが示されている。
本研究では,1つの環境と環境にまたがって集約された場合の両方で,信頼性の高い性能測定を行う強化学習アルゴリズムの総合評価手法を提案する。
- 参考スコア(独自算出の注目度): 30.075897642052126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance evaluations are critical for quantifying algorithmic advances in
reinforcement learning. Recent reproducibility analyses have shown that
reported performance results are often inconsistent and difficult to replicate.
In this work, we argue that the inconsistency of performance stems from the use
of flawed evaluation metrics. Taking a step towards ensuring that reported
results are consistent, we propose a new comprehensive evaluation methodology
for reinforcement learning algorithms that produces reliable measurements of
performance both on a single environment and when aggregated across
environments. We demonstrate this method by evaluating a broad class of
reinforcement learning algorithms on standard benchmark tasks.
- Abstract(参考訳): 性能評価は強化学習におけるアルゴリズムの進歩の定量化に重要である。
最近の再現性分析では、報告された性能結果はしばしば矛盾し、複製が難しいことが示されている。
本研究では、性能の不整合は、欠陥のある評価指標の使用によるものであると論じる。
報告された結果が一貫したものであることを保証するためのステップとして,単一環境と環境にまたがる信頼性の高い性能測定を行う強化学習アルゴリズムの総合評価手法を提案する。
標準ベンチマークタスクにおいて,強化学習アルゴリズムの幅広いクラスを評価することにより,本手法を実証する。
関連論文リスト
- Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文 参考訳(メタデータ) (2024-02-29T03:53:02Z) - From Variability to Stability: Advancing RecSys Benchmarking Practices [3.3331198926331784]
本稿では,RecSysアルゴリズムの公平かつ堅牢な比較を容易にするため,新しいベンチマーク手法を提案する。
本研究で導入された2つを含む30ドルのオープンデータセットの多種多様なセットを利用することで、データセット特性がアルゴリズム性能に与える影響を批判的に検証する。
論文 参考訳(メタデータ) (2024-02-15T07:35:52Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - Demystifying Unsupervised Semantic Correspondence Estimation [13.060538447838303]
教師なし学習のレンズによる意味対応推定について検討する。
我々は、最近提案された複数の課題データセットにまたがる教師なしの手法を徹底的に評価した。
本稿では,事前学習した特徴の強さを活かし,トレーニング中のより優れた試合を奨励する,新しい教師なし対応手法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:59:51Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Similarity of Classification Tasks [46.78404360210806]
本稿では,メタ学習の性能を最適化し,よりよく理解するために,タスク類似性を解析するための生成的アプローチを提案する。
提案手法は,2つの数ショット分類ベンチマークにおいてメタラーニングアルゴリズムの洞察に富んだ評価を行うことができることを示す。
論文 参考訳(メタデータ) (2021-01-27T04:37:34Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。