論文の概要: Replicable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.15284v1
- Date: Wed, 24 May 2023 16:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:30:35.757115
- Title: Replicable Reinforcement Learning
- Title(参考訳): replicable強化学習
- Authors: Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell
- Abstract要約: 本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
- 参考スコア(独自算出の注目度): 16.32300331766229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The replicability crisis in the social, behavioral, and data sciences has led
to the formulation of algorithm frameworks for replicability -- i.e., a
requirement that an algorithm produce identical outputs (with high probability)
when run on two different samples from the same underlying distribution. While
still in its infancy, provably replicable algorithms have been developed for
many fundamental tasks in machine learning and statistics, including
statistical query learning, the heavy hitters problem, and distribution
testing. In this work we initiate the study of replicable reinforcement
learning, providing a provably replicable algorithm for parallel value
iteration, and a provably replicable version of R-max in the episodic setting.
These are the first formal replicability results for control problems, which
present different challenges for replication than batch learning settings.
- Abstract(参考訳): 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。
まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。
本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。
これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。
関連論文リスト
- Replicability and stability in learning [16.936594801109557]
Impagliazzo氏、Lei氏、Pitassi氏、Sorrell氏(22)は先頃、マシンラーニングにおけるレプリカ性の研究を開始した。
我々は、任意のレプリカブルアルゴリズムを、任意の確率が 1 に近く同じ出力を生成するように拡張する方法を示す。
任意の確率で 1 に近い確率で達成できるように、リストの複製性を高めることができることを証明した。
論文 参考訳(メタデータ) (2023-04-07T17:52:26Z) - List and Certificate Complexities in Replicable Learning [0.7829352305480285]
リストの複製性と証明書の複製性という2つの実現可能な複製性について考察する。
リストと証明書の複雑さに最適な学習問題のアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-05T06:05:27Z) - Stability is Stable: Connections between Replicability, Privacy, and
Adaptive Generalization [26.4468964378511]
複製可能なアルゴリズムは、そのランダム性が固定されたときに高い確率で同じ出力を与える。
データ解析にレプリカブルアルゴリズムを使用することで、公開結果の検証が容易になる。
我々は、複製性とアルゴリズム安定性の標準概念との新たな接続と分離を確立する。
論文 参考訳(メタデータ) (2023-03-22T21:35:50Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Reproducibility in Learning [8.386806623480156]
再現可能な学習アルゴリズムは、サンプルのバリエーションに耐性がある。
強い需要にもかかわらず、統計学や学習におけるいくつかの基本的な問題に対して効率的な再現可能なアルゴリズムが存在する。
論文 参考訳(メタデータ) (2022-01-20T19:59:11Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Investigating the Scalability and Biological Plausibility of the
Activation Relaxation Algorithm [62.997667081978825]
アクティベーション・リラクシエーション(AR)アルゴリズムは、誤りアルゴリズムのバックプロパゲーションを近似するためのシンプルでロバストなアプローチを提供する。
このアルゴリズムは、学習可能な後方重みセットを導入することにより、さらに単純化され、生物学的に検証可能であることを示す。
また、元のARアルゴリズム(凍結フィードフォワードパス)の別の生物学的に信じられない仮定が、パフォーマンスを損なうことなく緩和できるかどうかについても検討する。
論文 参考訳(メタデータ) (2020-10-13T08:02:38Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Statistically Guided Divide-and-Conquer for Sparse Factorization of
Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。
第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。
第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文 参考訳(メタデータ) (2020-03-17T19:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。