論文の概要: Replicable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.15284v4
- Date: Tue, 31 Oct 2023 17:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:30:32.645924
- Title: Replicable Reinforcement Learning
- Title(参考訳): replicable強化学習
- Authors: Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell
- Abstract要約: 本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
- 参考スコア(独自算出の注目度): 15.857503103543308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The replicability crisis in the social, behavioral, and data sciences has led
to the formulation of algorithm frameworks for replicability -- i.e., a
requirement that an algorithm produce identical outputs (with high probability)
when run on two different samples from the same underlying distribution. While
still in its infancy, provably replicable algorithms have been developed for
many fundamental tasks in machine learning and statistics, including
statistical query learning, the heavy hitters problem, and distribution
testing. In this work we initiate the study of replicable reinforcement
learning, providing a provably replicable algorithm for parallel value
iteration, and a provably replicable version of R-max in the episodic setting.
These are the first formal replicability results for control problems, which
present different challenges for replication than batch learning settings.
- Abstract(参考訳): 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。
まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。
本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。
これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。
関連論文リスト
- Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。
本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。
我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文 参考訳(メタデータ) (2023-11-02T12:46:03Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Replicability and stability in learning [16.936594801109557]
Impagliazzo氏、Lei氏、Pitassi氏、Sorrell氏(22)は先頃、マシンラーニングにおけるレプリカ性の研究を開始した。
我々は、任意のレプリカブルアルゴリズムを、任意の確率が 1 に近く同じ出力を生成するように拡張する方法を示す。
任意の確率で 1 に近い確率で達成できるように、リストの複製性を高めることができることを証明した。
論文 参考訳(メタデータ) (2023-04-07T17:52:26Z) - List and Certificate Complexities in Replicable Learning [0.7829352305480285]
リストの複製性と証明書の複製性という2つの実現可能な複製性について考察する。
リストと証明書の複雑さに最適な学習問題のアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-05T06:05:27Z) - Stability is Stable: Connections between Replicability, Privacy, and
Adaptive Generalization [26.4468964378511]
複製可能なアルゴリズムは、そのランダム性が固定されたときに高い確率で同じ出力を与える。
データ解析にレプリカブルアルゴリズムを使用することで、公開結果の検証が容易になる。
我々は、複製性とアルゴリズム安定性の標準概念との新たな接続と分離を確立する。
論文 参考訳(メタデータ) (2023-03-22T21:35:50Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Reproducibility in Learning [8.386806623480156]
再現可能な学習アルゴリズムは、サンプルのバリエーションに耐性がある。
強い需要にもかかわらず、統計学や学習におけるいくつかの基本的な問題に対して効率的な再現可能なアルゴリズムが存在する。
論文 参考訳(メタデータ) (2022-01-20T19:59:11Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Statistically Guided Divide-and-Conquer for Sparse Factorization of
Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。
第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。
第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文 参考訳(メタデータ) (2020-03-17T19:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。