論文の概要: Universally Consistent Online Learning with Arbitrarily Dependent
Responses
- arxiv url: http://arxiv.org/abs/2203.06046v1
- Date: Fri, 11 Mar 2022 16:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 14:51:37.543891
- Title: Universally Consistent Online Learning with Arbitrarily Dependent
Responses
- Title(参考訳): 任意応答を用いた一貫したオンライン学習
- Authors: Steve Hanneke
- Abstract要約: この研究は、(X,Y)ペアのプロセスで普遍的に一貫したオンライン学習ルールを提供する。
特別な場合として、条件は(X,Y) 上のすべての過程を許容し、X 上の過程は定常である。
- 参考スコア(独自算出の注目度): 11.663072799764542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work provides an online learning rule that is universally consistent
under processes on (X,Y) pairs, under conditions only on the X process. As a
special case, the conditions admit all processes on (X,Y) such that the process
on X is stationary. This generalizes past results which required stationarity
for the joint process on (X,Y), and additionally required this process to be
ergodic. In particular, this means that ergodicity is superfluous for the
purpose of universally consistent online learning.
- Abstract(参考訳): この研究は、(X,Y)ペアのプロセスにおいて、Xプロセスのみの条件下で、普遍的に一貫したオンライン学習ルールを提供する。
特別な場合として、条件は (x,y) 上のすべてのプロセスを認め、x 上のプロセスは定常である。
これは、(X,Y) 上のジョイント過程に定常性を必要とする過去の結果を一般化し、さらにこの過程はエルゴード的である必要がある。
特にこれは、人間性は普遍的に一貫したオンライン学習のために過剰であることを意味する。
関連論文リスト
- Contextual Bandits and Optimistically Universal Learning [32.14208422566497]
私たちは一貫性に重点を置いています -- 最適な政策に比べて後悔を消します。
非i.d.文脈の大規模クラスでは、時間不変の報酬機構によらず一貫性が達成できることが示される。
論文 参考訳(メタデータ) (2022-12-31T16:15:28Z) - Consistent circuits for indefinite causal order [0.0]
論理的に一貫性があるが、循環因果構造を特徴とする多くの量子過程が提案されている。
ここでは,エキゾチックな因果構造を持つプロセスを構築する方法を提案する。
因果不等式に反するプロセスを含む、エキゾチックなプロセスの標準的な例が、このような方法で生成可能なプロセスのクラスであることを示す。
論文 参考訳(メタデータ) (2022-06-20T23:15:52Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Regular Decision Processes for Grid Worlds [0.0]
本稿では、最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする正規決定過程の実験的研究について述べる。
我々は、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。
論文 参考訳(メタデータ) (2021-11-05T17:54:43Z) - Efficient PAC Reinforcement Learning in Regular Decision Processes [99.02383154255833]
定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
論文 参考訳(メタデータ) (2021-05-14T12:08:46Z) - Muddling Labels for Regularization, a novel approach to generalization [0.0]
一般化は機械学習の中心的な問題である。
本稿では,データ分割のない一般化を実現する新しい手法を提案する。
これはモデルが過度に適合する傾向を直接定量化する新しいリスク尺度に基づいている。
論文 参考訳(メタデータ) (2021-02-17T14:02:30Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Contextuality scenarios arising from networks of stochastic processes [68.8204255655161]
経験的モデルは、その分布が X 上の合同分布を極小化することができなければ文脈的と言える。
我々は、多くのプロセス間の相互作用という、文脈的経験的モデルの異なる古典的な源泉を示す。
長期にわたるネットワークの統計的挙動は、経験的モデルを一般的な文脈的かつ強い文脈的にする。
論文 参考訳(メタデータ) (2020-06-22T16:57:52Z) - On Learnability under General Stochastic Processes [20.22409095000365]
一般の非イド過程における統計的学習は、未熟である。
一般プロセスの下で関数クラスの学習可能性に関する2つの自然な概念を提供する。
我々の結果は二項分類と回帰の両方に当てはまる。
論文 参考訳(メタデータ) (2020-05-15T15:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。