論文の概要: The In-Sample Softmax for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.14372v1
- Date: Tue, 28 Feb 2023 07:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:38:34.531896
- Title: The In-Sample Softmax for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのサンプル内ソフトマックス
- Authors: Chenjun Xiao, Han Wang, Yangchen Pan, Adam White, Martha White
- Abstract要約: 強化学習(RL)エージェントは、以前に収集したデータのバッチを利用して、合理的な制御ポリシーを抽出することができる。
標準最大演算子はデータセットにない最大作用を選択することができる。
これらの不正確な値からのブートストラップは、過大評価や分散につながる可能性がある。
- 参考スコア(独自算出の注目度): 37.37457955279337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents can leverage batches of previously
collected data to extract a reasonable control policy. An emerging issue in
this offline RL setting, however, is that the bootstrapping update underlying
many of our methods suffers from insufficient action-coverage: standard max
operator may select a maximal action that has not been seen in the dataset.
Bootstrapping from these inaccurate values can lead to overestimation and even
divergence. There are a growing number of methods that attempt to approximate
an \emph{in-sample} max, that only uses actions well-covered by the dataset. We
highlight a simple fact: it is more straightforward to approximate an in-sample
\emph{softmax} using only actions in the dataset. We show that policy iteration
based on the in-sample softmax converges, and that for decreasing temperatures
it approaches the in-sample max. We derive an In-Sample Actor-Critic (AC),
using this in-sample softmax, and show that it is consistently better or
comparable to existing offline RL methods, and is also well-suited to
fine-tuning.
- Abstract(参考訳): 強化学習(RL)エージェントは、以前に収集したデータのバッチを利用して合理的な制御ポリシーを抽出することができる。
しかし、このオフラインRL設定における新たな問題は、我々のメソッドの多くの基盤となるブートストラップ更新が、不十分なアクションカバレッジに悩まされていることである。
これらの不正確な値からのブートストラッピングは、過大評価や分散につながる可能性がある。
データセットでよくカバーされたアクションのみを使用する \emph{in-sample} maxを近似しようとするメソッドが増えている。
データセット内のアクションのみを使用して、サンプル内 \emph{softmax} を近似することはより簡単である。
本研究は, サンプル内ソフトマックスに基づく政策反復が収束し, 温度低下のためにサンプル内最大値に近づくことを示す。
In-Sample Actor-Critic (AC) をこのインサンプルソフトマックスを用いて導き、既存のオフラインRL法と一貫して良いか同等かを示し、微調整にも適していることを示す。
関連論文リスト
- Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - To Softmax, or not to Softmax: that is the question when applying Active
Learning for Transformer Models [24.43410365335306]
ラベル付きデータセットを取得するための人的労力を減らすためのよく知られたテクニックは、textitActive Learning (AL)である。
本稿では,7つのデータセットに対して8つの選択肢を比較する。
ほとんどのメソッドは真に不確実なサンプル(外れ値)を特定するのに長けており、ラベル付けによってパフォーマンスが低下する。
論文 参考訳(メタデータ) (2022-10-06T15:51:39Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data
Augmentation via MiniMax [7.680863481076596]
MiniMax-kNNは、効率的なデータ拡張戦略のサンプルである。
我々は、知識蒸留に基づく半教師付きアプローチを利用して、拡張データに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2021-05-28T06:32:32Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Active Sampling for Min-Max Fairness [28.420886416425077]
min-maxフェアネスを最適化するための簡易なアクティブサンプリングと再重み付け手法を提案する。
実装の容易さとロバストな定式化の汎用性により、不備な群におけるモデル性能を改善するための魅力的な選択肢となる。
線形回帰法やロジスティック回帰法のような凸学習問題に対しては、分極値解への収束率を証明し、きめ細かな解析を行う。
論文 参考訳(メタデータ) (2020-06-11T23:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。