論文の概要: Comparison and Unification of Three Regularization Methods in Batch
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.08134v1
- Date: Thu, 16 Sep 2021 17:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:58:41.100595
- Title: Comparison and Unification of Three Regularization Methods in Batch
Reinforcement Learning
- Title(参考訳): バッチ強化学習における3つの正則化法の比較と統一
- Authors: Sarah Rathnam, Susan A. Murphy, and Finale Doshi-Velez
- Abstract要約: 正規化法はマルコフ決定過程において過度に複雑なモデルを学ぶ問題を緩和することができる。
本稿では,共通フレームワークにおける3つの正規化手法について述べる。
この共通形式の正規化法を考えると、バッチデータセットのMDP構造と状態-作用対分布が正規化法の相対的性能にどのように影響するかが照らされる。
- 参考スコア(独自算出の注目度): 29.116092307359985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In batch reinforcement learning, there can be poorly explored state-action
pairs resulting in poorly learned, inaccurate models and poorly performing
associated policies. Various regularization methods can mitigate the problem of
learning overly-complex models in Markov decision processes (MDPs), however
they operate in technically and intuitively distinct ways and lack a common
form in which to compare them. This paper unifies three regularization methods
in a common framework -- a weighted average transition matrix. Considering
regularization methods in this common form illuminates how the MDP structure
and the state-action pair distribution of the batch data set influence the
relative performance of regularization methods. We confirm intuitions generated
from the common framework by empirical evaluation across a range of MDPs and
data collection policies.
- Abstract(参考訳): バッチ強化学習では、状態-作用ペアの探索が不十分であり、学習が不十分で不正確なモデルと関連するポリシーが不十分である。
様々な正規化手法はマルコフ決定過程(MDP)において過剰に複雑なモデルを学習する問題を緩和することができるが、技術的、直感的に異なる方法で動作し、比較する共通の形式が欠如している。
本稿では、重み付き平均遷移行列という共通フレームワークにおける3つの正規化手法を統一する。
この共通形式の正規化法を考えると、バッチデータセットのMDP構造と状態-作用対分布が正規化法の相対的性能にどのように影響するかが照らされる。
我々は,共通フレームワークから生成された直感を,多岐にわたるMDPとデータ収集ポリシーの実証評価により確認する。
関連論文リスト
- Deep Learning in Medical Image Registration: Magic or Mirage? [18.620739011646123]
我々は,画素ごとの強度とラベルの分布と,古典的登録法の性能を明示的に対応させる。
従来の手法では不可能な,教師の弱い学習ベースの手法は,高忠実度やラベル登録が可能であることを示す。
論文 参考訳(メタデータ) (2024-08-11T18:20:08Z) - A Deep Learning Method for Comparing Bayesian Hierarchical Models [1.6736940231069393]
本稿では,任意の階層モデルに対してベイズモデルの比較を行う深層学習手法を提案する。
提案手法は,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。
論文 参考訳(メタデータ) (2023-01-27T17:27:07Z) - Distributional Robustness Bounds Generalization Errors [2.3940819037450987]
分散ロバスト性」の定量的定義を提案する。
ベイズ法は, ほぼ正しい意味で分布的に頑健であることを示す。
本研究では,機械学習モデルの一般化誤差を,正規分布の分布不確かさを用いて特徴付けることができることを示す。
論文 参考訳(メタデータ) (2022-12-20T02:30:13Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Modular Gaussian Processes for Transfer Learning [0.0]
モジュラー変動ガウス過程(GP)に基づく移動学習のためのフレームワークを提案する。
我々は,データを再考することなく,アンサンブルGPモデルを構築するモジュールベースの手法を開発した。
本手法は、望ましくないデータの集中化を回避し、計算コストの増大を低減し、学習後の不確実性指標の伝達を可能にする。
論文 参考訳(メタデータ) (2021-10-26T09:15:18Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。