論文の概要: Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization
- arxiv url: http://arxiv.org/abs/2111.13807v1
- Date: Sat, 27 Nov 2021 03:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 16:06:57.547700
- Title: Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization
- Title(参考訳): オフラインのニューラルネットワーク帯域:ペシミズム、最適化、一般化
- Authors: Thanh Nguyen-Tang, Sunil Gupta, A.Tuan Nguyen, Svetha Venkatesh
- Abstract要約: 本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
- 参考スコア(独自算出の注目度): 42.865641215856925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline policy learning (OPL) leverages existing data collected a priori for
policy optimization without any active exploration. Despite the prevalence and
recent interest in this problem, its theoretical and algorithmic foundations in
function approximation settings remain under-developed. In this paper, we
consider this problem on the axes of distributional shift, optimization, and
generalization in offline contextual bandits with neural networks. In
particular, we propose a provably efficient offline contextual bandit with
neural network function approximation that does not require any functional
assumption on the reward. We show that our method provably generalizes over
unseen contexts under a milder condition for distributional shift than the
existing OPL works. Notably, unlike any other OPL method, our method learns
from the offline data in an online manner using stochastic gradient descent,
allowing us to leverage the benefits of online learning into an offline
setting. Moreover, we show that our method is more computationally efficient
and has a better dependence on the effective dimension of the neural network
than an online counterpart. Finally, we demonstrate the empirical effectiveness
of our method in a range of synthetic and real-world OPL problems.
- Abstract(参考訳): オフラインポリシー学習(OPL)は、アクティブな探索なしにポリシー最適化のために収集された既存のデータを活用する。
この問題の流行と近年の関心にもかかわらず、関数近似設定における理論的およびアルゴリズム的基礎は未開発のままである。
本稿では,ニューラルネットワークを用いたオフラインコンテキスト帯域における分布シフト,最適化,一般化の軸について考察する。
特に,報酬に機能的な仮定を必要とせず,ニューラルネットワーク関数近似を用いた,効率的なオフラインコンテキストバンディットを提案する。
提案手法は,既存のOPL法よりも分布シフトの軽度条件下で,不明瞭な文脈に対して有効に一般化可能であることを示す。
特に,他のOPL手法と異なり,本手法は確率勾配降下法を用いてオフラインデータから学習し,オンライン学習の利点をオフライン環境に活用することができる。
さらに,本手法はより計算効率が高く,オンライン手法よりもニューラルネットワークの有効次元への依存度が高いことを示す。
最後に, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
関連論文リスト
- Goal-Conditioned Offline Reinforcement Learning via Metric Learning [24.224380153671394]
目標条件付きオフライン強化学習の文脈における最適データセットからの最適行動学習の問題に対処する。
本稿では, 目標条件付きオフラインRL問題に対する最適値関数を, 厳密な報酬, 対称性, 決定論的行動の下で近似する方法を提案する。
提案手法は,準最適オフラインデータセットからの学習において,他のオフラインRLベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。