Fugu-MT 論文翻訳(概要): Replicable Reinforcement Learning

論文の概要: Replicable Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.15284v4
Date: Tue, 31 Oct 2023 17:13:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 02:30:32.645924
Title: Replicable Reinforcement Learning
Title（参考訳）: replicable強化学習
Authors: Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell
Abstract要約: 本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
参考スコア（独自算出の注目度）: 15.857503103543308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The replicability crisis in the social, behavioral, and data sciences has led to the formulation of algorithm frameworks for replicability -- i.e., a requirement that an algorithm produce identical outputs (with high probability) when run on two different samples from the same underlying distribution. While still in its infancy, provably replicable algorithms have been developed for many fundamental tasks in machine learning and statistics, including statistical query learning, the heavy hitters problem, and distribution testing. In this work we initiate the study of replicable reinforcement learning, providing a provably replicable algorithm for parallel value iteration, and a provably replicable version of R-max in the episodic setting. These are the first formal replicability results for control problems, which present different challenges for replication than batch learning settings.
Abstract（参考訳）: 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。

関連論文リスト

Replicable Reinforcement Learning with Linear Function Approximation [21.370247743205056]
複製可能なランダム設計回帰と非中心共分散推定のための2つの効率的なアルゴリズムを導入する。次に、これらのツールを活用して、線形マルコフ決定プロセスのための最初の証明可能なRLアルゴリズムを提供する。我々は、我々のアルゴリズムを実験的に評価し、より一貫性のあるニューラルポリシーをいかに刺激するかを示す。
論文参考訳（メタデータ） (2025-09-10T14:56:09Z)
Reconciling Predictive Multiplicity in Practice [43.74883617124773]
Reconcileは、モデル乗法(MM)現象に対処するための和解手続きである。本稿では,5つの広く利用されているフェアネスデータセットを用いて,Reconcileアルゴリズムを実証的に解析する。我々はReconcileアルゴリズムを因果推論の設定にまで拡張し、異なる競合推定器が特定の因果平均処理効果(CATE)値に再び異同できることを考慮した。
論文参考訳（メタデータ） (2025-01-27T22:48:20Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
The Cost of Replicability in Active Learning [1.349553980170339]
アクティブラーニングは、当初ラベルなしのデータポイントのラベルを選択的にクエリすることで、機械学習アルゴリズムに必要なラベル付きデータを減らすことを目的としている。アルゴリズムが常に異なる実行で同じ結果を生成する結果の複製性を保証することは、機械学習モデルの信頼性に不可欠である。本報告では,古典的不一致に基づく能動学習手法であるCALアルゴリズムを用いて,能動学習における再現性のコストについて検討する。
論文参考訳（メタデータ） (2024-12-12T19:03:31Z)
Replicability in High Dimensional Statistics [18.543059748500358]
本稿では,いくつかの基本的高次元統計課題に対する再現性の計算的および統計的コストについて検討する。我々の主な貢献は、最適なレプリカブルアルゴリズムと高次元等尺波の計算的および統計的等価性を確立することである。
論文参考訳（メタデータ） (2024-06-04T00:06:42Z)
The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文参考訳（メタデータ） (2024-04-23T18:09:53Z)
Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文参考訳（メタデータ） (2024-04-04T10:54:38Z)
Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文参考訳（メタデータ） (2023-11-02T12:46:03Z)
Replicability and stability in learning [16.936594801109557]
Impagliazzo氏、Lei氏、Pitassi氏、Sorrell氏(22)は先頃、マシンラーニングにおけるレプリカ性の研究を開始した。我々は、任意のレプリカブルアルゴリズムを、任意の確率が 1 に近く同じ出力を生成するように拡張する方法を示す。任意の確率で 1 に近い確率で達成できるように、リストの複製性を高めることができることを証明した。
論文参考訳（メタデータ） (2023-04-07T17:52:26Z)
Stability is Stable: Connections between Replicability, Privacy, and Adaptive Generalization [26.4468964378511]
複製可能なアルゴリズムは、そのランダム性が固定されたときに高い確率で同じ出力を与える。データ解析にレプリカブルアルゴリズムを使用することで、公開結果の検証が容易になる。我々は、複製性とアルゴリズム安定性の標準概念との新たな接続と分離を確立する。
論文参考訳（メタデータ） (2023-03-22T21:35:50Z)
Reproducibility in Learning [8.386806623480156]
再現可能な学習アルゴリズムは、サンプルのバリエーションに耐性がある。強い需要にもかかわらず、統計学や学習におけるいくつかの基本的な問題に対して効率的な再現可能なアルゴリズムが存在する。
論文参考訳（メタデータ） (2022-01-20T19:59:11Z)
MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文参考訳（メタデータ） (2021-11-04T22:38:18Z)
Phase Retrieval using Expectation Consistent Signal Recovery Algorithm based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文参考訳（メタデータ） (2021-01-12T08:36:23Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Statistically Guided Divide-and-Conquer for Sparse Factorization of Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文参考訳（メタデータ） (2020-03-17T19:12:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。