論文の概要: Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization
- arxiv url: http://arxiv.org/abs/2111.13807v1
- Date: Sat, 27 Nov 2021 03:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 16:06:57.547700
- Title: Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization
- Title(参考訳): オフラインのニューラルネットワーク帯域:ペシミズム、最適化、一般化
- Authors: Thanh Nguyen-Tang, Sunil Gupta, A.Tuan Nguyen, Svetha Venkatesh
- Abstract要約: 本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
- 参考スコア(独自算出の注目度): 42.865641215856925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline policy learning (OPL) leverages existing data collected a priori for
policy optimization without any active exploration. Despite the prevalence and
recent interest in this problem, its theoretical and algorithmic foundations in
function approximation settings remain under-developed. In this paper, we
consider this problem on the axes of distributional shift, optimization, and
generalization in offline contextual bandits with neural networks. In
particular, we propose a provably efficient offline contextual bandit with
neural network function approximation that does not require any functional
assumption on the reward. We show that our method provably generalizes over
unseen contexts under a milder condition for distributional shift than the
existing OPL works. Notably, unlike any other OPL method, our method learns
from the offline data in an online manner using stochastic gradient descent,
allowing us to leverage the benefits of online learning into an offline
setting. Moreover, we show that our method is more computationally efficient
and has a better dependence on the effective dimension of the neural network
than an online counterpart. Finally, we demonstrate the empirical effectiveness
of our method in a range of synthetic and real-world OPL problems.
- Abstract(参考訳): オフラインポリシー学習(OPL)は、アクティブな探索なしにポリシー最適化のために収集された既存のデータを活用する。
この問題の流行と近年の関心にもかかわらず、関数近似設定における理論的およびアルゴリズム的基礎は未開発のままである。
本稿では,ニューラルネットワークを用いたオフラインコンテキスト帯域における分布シフト,最適化,一般化の軸について考察する。
特に,報酬に機能的な仮定を必要とせず,ニューラルネットワーク関数近似を用いた,効率的なオフラインコンテキストバンディットを提案する。
提案手法は,既存のOPL法よりも分布シフトの軽度条件下で,不明瞭な文脈に対して有効に一般化可能であることを示す。
特に,他のOPL手法と異なり,本手法は確率勾配降下法を用いてオフラインデータから学習し,オンライン学習の利点をオフライン環境に活用することができる。
さらに,本手法はより計算効率が高く,オンライン手法よりもニューラルネットワークの有効次元への依存度が高いことを示す。
最後に, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
関連論文リスト
- The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。