Fugu-MT 論文翻訳(概要): Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization

論文の概要: Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization

arxiv url: http://arxiv.org/abs/2111.13807v1
Date: Sat, 27 Nov 2021 03:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-04 16:06:57.547700
Title: Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization
Title（参考訳）: オフラインのニューラルネットワーク帯域:ペシミズム、最適化、一般化
Authors: Thanh Nguyen-Tang, Sunil Gupta, A.Tuan Nguyen, Svetha Venkatesh
Abstract要約: 本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
参考スコア（独自算出の注目度）: 42.865641215856925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline policy learning (OPL) leverages existing data collected a priori for policy optimization without any active exploration. Despite the prevalence and recent interest in this problem, its theoretical and algorithmic foundations in function approximation settings remain under-developed. In this paper, we consider this problem on the axes of distributional shift, optimization, and generalization in offline contextual bandits with neural networks. In particular, we propose a provably efficient offline contextual bandit with neural network function approximation that does not require any functional assumption on the reward. We show that our method provably generalizes over unseen contexts under a milder condition for distributional shift than the existing OPL works. Notably, unlike any other OPL method, our method learns from the offline data in an online manner using stochastic gradient descent, allowing us to leverage the benefits of online learning into an offline setting. Moreover, we show that our method is more computationally efficient and has a better dependence on the effective dimension of the neural network than an online counterpart. Finally, we demonstrate the empirical effectiveness of our method in a range of synthetic and real-world OPL problems.
Abstract（参考訳）: オフラインポリシー学習(OPL)は、アクティブな探索なしにポリシー最適化のために収集された既存のデータを活用する。この問題の流行と近年の関心にもかかわらず、関数近似設定における理論的およびアルゴリズム的基礎は未開発のままである。本稿では,ニューラルネットワークを用いたオフラインコンテキスト帯域における分布シフト,最適化,一般化の軸について考察する。特に,報酬に機能的な仮定を必要とせず,ニューラルネットワーク関数近似を用いた,効率的なオフラインコンテキストバンディットを提案する。提案手法は,既存のOPL法よりも分布シフトの軽度条件下で,不明瞭な文脈に対して有効に一般化可能であることを示す。特に,他のOPL手法と異なり,本手法は確率勾配降下法を用いてオフラインデータから学習し,オンライン学習の利点をオフライン環境に活用することができる。さらに,本手法はより計算効率が高く,オンライン手法よりもニューラルネットワークの有効次元への依存度が高いことを示す。最後に, 実世界のOPL問題において, 提案手法の実証的有効性を示す。

関連論文リスト

Active Human Feedback Collection via Neural Contextual Dueling Bandits [84.7608942821423]
本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
論文参考訳（メタデータ） (2025-04-16T12:16:10Z)
Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文参考訳（メタデータ） (2025-03-15T18:12:16Z)
The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。 KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文参考訳（メタデータ） (2024-06-03T15:51:04Z)
Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文参考訳（メタデータ） (2024-05-14T09:12:30Z)
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文参考訳（メタデータ） (2024-01-06T20:52:04Z)
Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-18T18:58:42Z)
Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文参考訳（メタデータ） (2023-07-07T15:03:42Z)
Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文参考訳（メタデータ） (2022-09-22T12:40:21Z)
Model-Free Learning of Optimal Deterministic Resource Allocations in Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文参考訳（メタデータ） (2021-08-23T18:26:16Z)
What are the Statistical Limits of Offline RL with Linear Function Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文参考訳（メタデータ） (2020-10-22T17:32:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。