論文の概要: The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.03158v2
- Date: Thu, 3 Dec 2020 12:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:23:02.478551
- Title: The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in
Reinforcement Learning
- Title(参考訳): LoCAレグレット:強化学習におけるモデルに基づく行動評価の一貫した基準
- Authors: Harm van Seijen and Hadi Nekoei and Evan Racah and Sarath Chandar
- Abstract要約: 本稿では,RL手法のモデルベース動作を評価するための実験装置を提案する。
我々のメトリクスは、たとえ手法が表現に乏しいとしても、モデルに基づく振る舞いを識別できる。
我々は、従来のマウンテンカータスクのバリエーションに基づいて、MuZeroのモデルに基づく振る舞いを評価するためにセットアップを使用する。
- 参考スコア(独自算出の注目度): 21.967763416902265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep model-based Reinforcement Learning (RL) has the potential to
substantially improve the sample-efficiency of deep RL. While various
challenges have long held it back, a number of papers have recently come out
reporting success with deep model-based methods. This is a great development,
but the lack of a consistent metric to evaluate such methods makes it difficult
to compare various approaches. For example, the common single-task
sample-efficiency metric conflates improvements due to model-based learning
with various other aspects, such as representation learning, making it
difficult to assess true progress on model-based RL. To address this, we
introduce an experimental setup to evaluate model-based behavior of RL methods,
inspired by work from neuroscience on detecting model-based behavior in humans
and animals. Our metric based on this setup, the Local Change Adaptation (LoCA)
regret, measures how quickly an RL method adapts to a local change in the
environment. Our metric can identify model-based behavior, even if the method
uses a poor representation and provides insight in how close a method's
behavior is from optimal model-based behavior. We use our setup to evaluate the
model-based behavior of MuZero on a variation of the classic Mountain Car task.
- Abstract(参考訳): 深層モデルに基づく強化学習(RL)は,深部RLのサンプル効率を大幅に向上させる可能性がある。
様々な課題が長年持ちこたえてきたが、多くの論文が最近、ディープモデルベースの手法で成功を報告している。
これは大きな発展であるが、そのような手法を評価するための一貫した基準が欠如しているため、様々な手法を比較することは困難である。
例えば、一般的なシングルタスクのサンプル効率測定基準は、モデルベース学習による改善と、表現学習などの様々な側面を融合させ、モデルベースRLの真の進歩を評価するのが困難になる。
そこで本研究では,人間や動物におけるモデルベース行動の検出に関する神経科学の研究から着想を得た,モデルベース行動評価のための実験装置を提案する。
この設定に基づく測定基準であるlocal change adapt (loca) regretは、rlメソッドが環境のローカルな変更にどの程度迅速に適応するかを測定します。
提案手法では, モデルに基づく振る舞いを, たとえ表現が貧弱であったとしても識別し, 最適なモデルベース行動から, メソッドの振る舞いがいかに近いかの洞察を与える。
我々は、従来のマウンテンカータスクのバリエーションに基づいて、MuZeroのモデルに基づく振る舞いを評価するためにセットアップを使用する。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Towards Evaluating Adaptivity of Model-Based Reinforcement Learning
Methods [25.05409184943328]
モデルに基づく手法は, 局所的な環境変化に適応する能力に乏しいことを示す。
適応的な振る舞いを損なう要素を特定し、深層モデルベースRLで頻繁に使用される基礎技術とリンクする。
適応非線形モデルに基づく手法を構築する際の課題について考察する。
論文 参考訳(メタデータ) (2022-04-25T06:45:16Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。