論文の概要: Semi-Offline Reinforcement Learning for Optimized Text Generation
- arxiv url: http://arxiv.org/abs/2306.09712v1
- Date: Fri, 16 Jun 2023 09:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:31:36.242360
- Title: Semi-Offline Reinforcement Learning for Optimized Text Generation
- Title(参考訳): テキスト生成最適化のための半オフライン強化学習
- Authors: Changyu Chen, Xiting Wang, Yiqiao Jin, Victor Ye Dong, Li Dong, Jie
Cao, Yi Liu, Rui Yan
- Abstract要約: 強化学習(RL)では、オンラインとオフラインという、環境と対話するための2つの主要な設定がある。
オフライン手法は探索能力を犠牲にして効率よく報奨信号を得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 35.1606951874979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), there are two major settings for interacting
with the environment: online and offline. Online methods explore the
environment at significant time cost, and offline methods efficiently obtain
reward signals by sacrificing exploration capability. We propose semi-offline
RL, a novel paradigm that smoothly transits from offline to online settings,
balances exploration capability and training cost, and provides a theoretical
foundation for comparing different RL settings. Based on the semi-offline
formulation, we present the RL setting that is optimal in terms of optimization
cost, asymptotic error, and overfitting error bound. Extensive experiments show
that our semi-offline approach is efficient and yields comparable or often
better performance compared with state-of-the-art methods.
- Abstract(参考訳): 強化学習(RL)では、オンラインとオフラインの2つの主要な環境と相互作用する。
オンラインメソッドは環境をかなりの時間コストで探索し、オフラインメソッドは探索能力を犠牲にして報奨信号を効率的に得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
半オフラインの定式化に基づき、最適化コスト、漸近誤差、および誤差境界のオーバーフィットの観点から最適なrl設定を提案する。
広範な実験によって、私たちの半オフラインアプローチは効率的であり、最先端のメソッドと比較して同等か、あるいはしばしば優れたパフォーマンスが得られることが分かりました。
関連論文リスト
- Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning [32.0689406340166]
本稿では,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増大手法を提案する。
SERAはエージェントに対してQ条件付きエントロピーを報酬として計算することで探索を奨励する。
様々なRLアルゴリズムにプラグインすることで、オンラインの微調整を改善し、継続的な改善を保証することができる。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [55.47037858773641]
本稿では,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,E2Oは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - On the Role of Discount Factor in Offline Reinforcement Learning [25.647624787936028]
割引係数である$gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たす。
本稿では、理論解析によるオフラインRLにおける$gamma$の2つの異なる効果について検討する。
その結果, オフラインRLアルゴリズムの性能において, 割引係数が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2022-06-07T15:22:42Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。