論文の概要: Explaining Off-Policy Actor-Critic From A Bias-Variance Perspective
- arxiv url: http://arxiv.org/abs/2110.02421v1
- Date: Wed, 6 Oct 2021 00:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:42:40.597104
- Title: Explaining Off-Policy Actor-Critic From A Bias-Variance Perspective
- Title(参考訳): Bias-Varianceの観点からのオフポリティアクター批判の解説
- Authors: Ting-Han Fan, Peter J. Ramadge
- Abstract要約: オフ・ポリティクスのアクター・クライブアルゴリズムは、驚くべき実験的な性能を示したが、いまだにより良い説明を必要としている。
本稿では, ベルマン誤差, 政策ミスマッチの偏り, サンプリングの分散項の2つに分解した遷移の分布に対する政策評価誤差を示す。
- 参考スコア(独自算出の注目度): 10.914300987810126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy Actor-Critic algorithms have demonstrated phenomenal experimental
performance but still require better explanations. To this end, we show its
policy evaluation error on the distribution of transitions decomposes into: a
Bellman error, a bias from policy mismatch, and a variance term from sampling.
By comparing the magnitude of bias and variance, we explain the success of the
Emphasizing Recent Experience sampling and 1/age weighted sampling. Both
sampling strategies yield smaller bias and variance and are hence preferable to
uniform sampling.
- Abstract(参考訳): オフ・ポリティカル・アクタ-クリティックアルゴリズムは驚くべき実験性能を示しているが、より優れた説明が必要である。
この結果から, ベルマン誤差, 政策ミスマッチの偏り, サンプリングからの分散項に分解された遷移の分布に対する政策評価誤差を示す。
バイアスとばらつきの大きさを比較することで,最近の経験を強調するサンプリングと1/ageの重み付けサンプリングの成功を説明する。
いずれのサンプリング戦略もバイアスと分散が小さくなり、一様サンプリングに好適である。
関連論文リスト
- SoftCVI: Contrastive variational inference with self-generated soft labels [2.5398014196797614]
変分推論とマルコフ連鎖モンテカルロ法がこのタスクの主要なツールである。
ソフトコントラスト変動推論(SoftCVI)を導入し、コントラスト推定フレームワークを用いて変動対象のファミリーを導出する。
我々は、SoftCVIを用いて、訓練や大量発見に安定な目標を定式化することができ、他の変分アプローチよりも頻繁に優れた推論が可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-22T14:54:12Z) - Mini-batch Submodular Maximization [5.439020425819001]
単調デコンポーザブルな部分モジュラ関数,$F=sum_i=1N fi$ を制約の下で最大化する,最初のミニバッチアルゴリズムを提案する。
我々は、一様と重み付けの2つのサンプリング手法を検討する。
意外なことに, 実験結果から, 均一サンプリングは加重サンプリングよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-01-23T04:16:58Z) - Fairness under Covariate Shift: Improving Fairness-Accuracy tradeoff
with few Unlabeled Test Samples [21.144077993862652]
我々は、ラベル付きトレーニングセットとともに、ラベル付きテストサンプルの小さなセットのみが利用可能である教師なしのシステムで運用する。
我々は、損失定式化による最適化が、最先端のベースラインよりも優れていることを実験的に検証した。
提案手法は, それらの性能を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-10-11T14:39:51Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Understanding Generalization in Adversarial Training via the
Bias-Variance Decomposition [39.108491135488286]
テストのリスクをバイアスと分散コンポーネントに分解します。
バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。
一般化ギャップに対する一般的な説明は、代わりに分散が単調であることを予測している。
論文 参考訳(メタデータ) (2021-03-17T23:30:00Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - On conditional versus marginal bias in multi-armed bandits [105.07190334523304]
多腕バンディットにおける腕のサンプル平均のバイアスは、適応データ解析において重要な問題である。
サンプル平均を含む報酬の単調関数の条件バイアスの兆候を特徴付ける。
我々の結果は任意の条件付けイベントを保ち、データ収集ポリシーの自然な単調性特性を活用する。
論文 参考訳(メタデータ) (2020-02-19T20:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。