論文の概要: Balancing optimism and pessimism in offline-to-online learning
- arxiv url: http://arxiv.org/abs/2502.08259v2
- Date: Mon, 10 Mar 2025 16:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:02.562216
- Title: Balancing optimism and pessimism in offline-to-online learning
- Title(参考訳): オフライン-オンライン学習における楽観主義と悲観主義のバランス
- Authors: Flore Sentenac, Ilbin Lee, Csaba Szepesvari,
- Abstract要約: 我々は、有限武装の盗賊問題に焦点をあて、オフラインからオフラインの学習環境と呼ぶものについて考察する。
オフラインからオフラインの学習では、学習者は未知の環境とのインタラクションから収集されたオフラインデータから始める。
我々の新しいアルゴリズムは、どの時点でもLCBやUPBよりも性能が良いことを示す。
- 参考スコア(独自算出の注目度): 3.0859952733743334
- License:
- Abstract: We consider what we call the offline-to-online learning setting, focusing on stochastic finite-armed bandit problems. In offline-to-online learning, a learner starts with offline data collected from interactions with an unknown environment in a way that is not under the learner's control. Given this data, the learner begins interacting with the environment, gradually improving its initial strategy as it collects more data to maximize its total reward. The learner in this setting faces a fundamental dilemma: if the policy is deployed for only a short period, a suitable strategy (in a number of senses) is the Lower Confidence Bound (LCB) algorithm, which is based on pessimism. LCB can effectively compete with any policy that is sufficiently "covered" by the offline data. However, for longer time horizons, a preferred strategy is the Upper Confidence Bound (UCB) algorithm, which is based on optimism. Over time, UCB converges to the performance of the optimal policy at a rate that is nearly the best possible among all online algorithms. In offline-to-online learning, however, UCB initially explores excessively, leading to worse short-term performance compared to LCB. This suggests that a learner not in control of how long its policy will be in use should start with LCB for short horizons and gradually transition to a UCB-like strategy as more rounds are played. This article explores how and why this transition should occur. Our main result shows that our new algorithm performs nearly as well as the better of LCB and UCB at any point in time. The core idea behind our algorithm is broadly applicable, and we anticipate that our results will extend beyond the multi-armed bandit setting.
- Abstract(参考訳): 我々は、確率的有限武装バンディット問題に焦点をあてて、オフラインからオフラインの学習環境と呼ぶものを検討する。
オフライン-オンライン学習では、学習者は未知の環境とのインタラクションから収集されたオフラインデータから学習者の制御下にない方法で学習を開始する。
このデータを踏まえると、学習者は環境と対話し始め、より多くのデータを収集して報酬を最大化するにつれて、初期戦略を徐々に改善する。
この設定の学習者は基本的なジレンマに直面している: ポリシーが短期間しか展開されない場合、適切な戦略(多くの意味で)は悲観主義に基づく低信頼境界(LCB)アルゴリズムである。
LCBはオフラインデータによって十分に「カバー」されたポリシーと効果的に競合することができる。
しかし、より長い時間的地平線では、楽観主義に基づくアッパー信頼境界(UCB)アルゴリズムが好ましい。
時間が経つにつれて、UCBは最適ポリシーのパフォーマンスに収束し、全てのオンラインアルゴリズムの中でほぼ最高のレートで実行されます。
しかし、オフラインからオンラインの学習では、UDBは最初過度に探索し、LCBと比較して短期的なパフォーマンスが悪くなった。
このことは、その政策がいつまで使われるか制御できない学習者は、短い地平線のためにCBから始まり、より多くのラウンドがプレイされるにつれて徐々に UCB のような戦略に移行するべきであることを示唆している。
この記事では、この移行の発生方法と理由について論じる。
我々の主な結果は、新しいアルゴリズムが、どの時点においても、CBとUDBのほぼ同等の性能を発揮することを示している。
アルゴリズムの背後にある中核的な考え方は広く適用可能であり、この結果がマルチアームバンディット設定を超えて拡張されることを期待する。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Bridging Offline Reinforcement Learning and Imitation Learning: A Tale
of Pessimism [26.11003309805633]
オフライン強化学習(RL)アルゴリズムは、アクティブなデータ収集なしに、固定データセットから最適なポリシーを学習しようとする。
オフラインデータセットの構成に基づいて、模倣学習とバニラオフラインRLの2つの主要なカテゴリが使用される。
データ合成の2つの極端をスムーズに補間する新しいオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T17:27:08Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。