論文の概要: Batch Value-function Approximation with Only Realizability
- arxiv url: http://arxiv.org/abs/2008.04990v3
- Date: Thu, 17 Jun 2021 04:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:45:57.148676
- Title: Batch Value-function Approximation with Only Realizability
- Title(参考訳): 実現可能性のみを用いたバッチ値関数近似
- Authors: Tengyang Xie, Nan Jiang
- Abstract要約: バッチ強化学習(RL):探索データセットからQstar$を学習する。
我々のアルゴリズムであるBVFTは、トーナメントの手順を通じて硬さ予想(探索データというより強い概念の下では)を破る。
また、BVFTが他の拡張と開問題の間のモデル選択にどのように適用できるかについても論じる。
- 参考スコア(独自算出の注目度): 17.692408242465763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We make progress in a long-standing problem of batch reinforcement learning
(RL): learning $Q^\star$ from an exploratory and polynomial-sized dataset,
using a realizable and otherwise arbitrary function class. In fact, all
existing algorithms demand function-approximation assumptions stronger than
realizability, and the mounting negative evidence has led to a conjecture that
sample-efficient learning is impossible in this setting (Chen and Jiang, 2019).
Our algorithm, BVFT, breaks the hardness conjecture (albeit under a stronger
notion of exploratory data) via a tournament procedure that reduces the
learning problem to pairwise comparison, and solves the latter with the help of
a state-action partition constructed from the compared functions. We also
discuss how BVFT can be applied to model selection among other extensions and
open problems.
- Abstract(参考訳): 探索的および多項式サイズのデータセットからQ^\star$を学習し、実現可能でそれ以外の任意の関数クラスを用いて、長期にわたるバッチ強化学習(RL)の課題を進行させる。
実際、既存の全てのアルゴリズムは、実現可能性よりも強い関数近似の仮定を要求しており、負の証拠が現れることで、この設定ではサンプル効率の学習は不可能である(Chen and Jiang, 2019)。
我々のアルゴリズムであるBVFTは、学習問題をペア比較に還元するトーナメント手順を通じて硬さ予想を破り(探索データの概念は強いが)、比較関数から構築した状態-作用分割の助けを借りて後者を解く。
また、bvftを他の拡張やオープン問題のモデル選択に適用する方法についても論じる。
関連論文リスト
- BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Recursive Causal Structure Learning in the Presence of Latent Variables
and Selection Bias [27.06618125828978]
本稿では,潜伏変数と選択バイアスの存在下での観測データからシステムの因果MAGを学習する問題を考察する。
本稿では,音と完全性を備えた計算効率のよい制約ベースの新しい手法を提案する。
提案手法と人工と実世界の両方の構造に関する技術の現状を比較した実験結果を提供する。
論文 参考訳(メタデータ) (2021-10-22T19:49:59Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Neural Active Learning with Performance Guarantees [37.16062387461106]
非パラメトリックなレシエーションにおけるストリーミング環境におけるアクティブラーニングの問題について検討する。
我々は最近提案されたニューラル・タンジェント・カーネル(NTK)近似ツールを用いて、アルゴリズムが操作する特徴空間と学習したモデルを上から計算する適切なニューラル埋め込みを構築する。
論文 参考訳(メタデータ) (2021-06-06T20:44:23Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。