論文の概要: Value-aware Importance Weighting for Off-policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.15625v1
- Date: Tue, 27 Jun 2023 17:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:32:10.741234
- Title: Value-aware Importance Weighting for Off-policy Reinforcement Learning
- Title(参考訳): オフポリティクス強化学習における価値認識重要度重み付け
- Authors: Kristopher De Asis, Eric Graves, Richard S. Sutton
- Abstract要約: 重要度サンプリングは、強化学習における非政治予測の根底にある中心的な考え方である。
本研究では,非政治学習におけるサンプルの修正のために,より広範な重み付けを考察する。
このような重みの計算方法が導出され、結果として生じる重みの重要特性が詳細に説明される。
- 参考スコア(独自算出の注目度): 11.3798693158017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Importance sampling is a central idea underlying off-policy prediction in
reinforcement learning. It provides a strategy for re-weighting samples from a
distribution to obtain unbiased estimates under another distribution. However,
importance sampling weights tend to exhibit extreme variance, often leading to
stability issues in practice. In this work, we consider a broader class of
importance weights to correct samples in off-policy learning. We propose the
use of $\textit{value-aware importance weights}$ which take into account the
sample space to provide lower variance, but still unbiased, estimates under a
target distribution. We derive how such weights can be computed, and detail key
properties of the resulting importance weights. We then extend several
reinforcement learning prediction algorithms to the off-policy setting with
these weights, and evaluate them empirically.
- Abstract(参考訳): 重要度サンプリングは、強化学習におけるオフポリシー予測の基礎となる中心的なアイデアである。
分布からサンプルを再重み付けし、別の分布の下でバイアスのない見積もりを得る戦略を提供する。
しかし、重みをサンプリングする重要性は極端にばらつきがあり、しばしば実際には安定性の問題を引き起こす。
本研究では,非政治学習におけるサンプルの修正のために,より広範な重み付けを考察する。
対象分布下でのばらつきの小さいが偏りのない推定を提供するために,サンプル空間を考慮した$\textit{value-aware importance weights}$の使用を提案する。
このような重みをどのように計算できるかを導出し、結果として生じる重要重みの重要な特性を詳述する。
次に,いくつかの強化学習予測アルゴリズムを,これらの重み付けを用いてオフポリシー設定に拡張し,経験的に評価する。
関連論文リスト
- A Short Survey on Importance Weighting for Machine Learning [3.27651593877935]
分布シフトと呼ばれる、トレーニングとテストの分布の違いを仮定した教師あり学習は、その密度比による重み付けによって統計的に望ましい特性を保証できることが知られている。
この調査は、機械学習と関連する研究における重み付けの幅広い応用について要約する。
論文 参考訳(メタデータ) (2024-03-15T10:31:46Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Rethinking Importance Weighting for Transfer Learning [71.81262398144946]
教師あり学習における主要な前提は、トレーニングとテストデータが同じ確率分布に従うことである。
現実の機械学習タスクはますます複雑になりつつあるため、このような課題に対処するための新しいアプローチが検討されている。
論文 参考訳(メタデータ) (2021-12-19T14:35:25Z) - Multicalibrated Partitions for Importance Weights [17.1726078570842]
重要度重みは、多くの分野、特に統計学と機械学習において、基本的な役割を果たす。
最大エントロピー法では、集合の基底的真理の重みの平均が明らかに大きい場合でも、計算量$ に対して高い平均スコアを割り当てることができない可能性がある。
標準学習可能性仮定の下でこれらの境界を満たす重みを計算する効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-10T03:32:36Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z) - Towards an Intrinsic Definition of Robustness for a Classifier [4.205692673448206]
検証セットにおける試料のロバスト性半径の平均化は統計的に弱い尺度であることを示す。
その代わりに, 試料の難易度に応じて, 試料の重要性を重み付けすることを提案する。
提案したスコアが,サンプルの選択にほとんど依存せず,分類器のロバスト性を測定することを実証的に示す。
論文 参考訳(メタデータ) (2020-06-09T07:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。