論文の概要: Direct Advantage Estimation
- arxiv url: http://arxiv.org/abs/2109.06093v1
- Date: Mon, 13 Sep 2021 16:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:28:32.696084
- Title: Direct Advantage Estimation
- Title(参考訳): 直接アドバンテージ推定
- Authors: Hsiao-Ru Pan, Nico G\"urtler, Alexander Neitz, Bernhard Sch\"olkopf
- Abstract要約: 予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
- 参考スコア(独自算出の注目度): 63.52264764099532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Credit assignment is one of the central problems in reinforcement learning.
The predominant approach is to assign credit based on the expected return.
However, we show that the expected return may depend on the policy in an
undesirable way which could slow down learning. Instead, we borrow ideas from
the causality literature and show that the advantage function can be
interpreted as causal effects, which share similar properties with causal
representations. Based on this insight, we propose the Direct Advantage
Estimation (DAE), a novel method that can model the advantage function and
estimate it directly from data without requiring the (action-)value function.
If desired, value functions can also be seamlessly integrated into DAE and be
updated in a similar way to Temporal Difference Learning. The proposed method
is easy to implement and can be readily adopted by modern actor-critic methods.
We test DAE empirically on the Atari domain and show that it can achieve
competitive results with the state-of-the-art method for advantage estimation.
- Abstract(参考訳): クレジット割り当ては強化学習における中心的な問題のひとつです。
主なアプローチは、期待されるリターンに基づいてクレジットを割り当てることである。
しかし、予測されるリターンは、学習を遅らせるような望ましくない方法でポリシーに依存する可能性がある。
代わりに、我々は因果関係の文献から考えを借り、有利な関数は因果関係の表現と類似した性質を共有する因果効果として解釈できることを示す。
そこで本研究では,この知見に基づいて,アドバンテージ関数をモデル化し,(アクション)値関数を必要とせずに直接データから推定できる新しい手法であるdirect advantage estimation (dae)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
提案手法は実装が容易であり,現代のアクタ批判手法にも容易に適用できる。
本研究では, Atari ドメイン上でDAE を実証的にテストし, 優位性評価のための最先端手法を用いて競争結果が得られることを示す。
関連論文リスト
- Skill or Luck? Return Decomposition via Advantage Functions [15.967056781224102]
サンプル効率のよい強化学習には,非政治データからの学習が不可欠である。
その結果, 有利関数は, 反応が帰路に与える因果効果として理解できることが示唆された。
この分解により、直接アドバンテージ推定を外部設定に自然に拡張できます。
論文 参考訳(メタデータ) (2024-02-20T10:09:00Z) - Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings [6.082810456767599]
機械学習の手法は、入力機能が無償で利用できると仮定することが多い。
機能性の獲得が有害な分野である医療のような領域では、機能の獲得と予測的肯定性とのバランスをとる必要がある。
能動的特徴獲得性能評価(AFAPE)の問題点について述べる。
論文 参考訳(メタデータ) (2023-12-03T23:08:29Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Explaining Adverse Actions in Credit Decisions Using Shapley
Decomposition [8.003221404049905]
本稿では、デフォルト確率の予測モデルに基づく信用決定に焦点を当て、有害な行動説明のための方法論を提案する。
低次相互作用を持つモデルを検討し、第一原理に基づくシンプルで直感的なアプローチを開発する。
機械学習結果の局所的解釈可能性に関する文献における他のShapley技術とは異なり、B-Shapは計算的に抽出可能である。
論文 参考訳(メタデータ) (2022-04-26T15:07:15Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。