論文の概要: Semi-Offline Reinforcement Learning for Optimized Text Generation
- arxiv url: http://arxiv.org/abs/2306.09712v1
- Date: Fri, 16 Jun 2023 09:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:31:36.242360
- Title: Semi-Offline Reinforcement Learning for Optimized Text Generation
- Title(参考訳): テキスト生成最適化のための半オフライン強化学習
- Authors: Changyu Chen, Xiting Wang, Yiqiao Jin, Victor Ye Dong, Li Dong, Jie
Cao, Yi Liu, Rui Yan
- Abstract要約: 強化学習(RL)では、オンラインとオフラインという、環境と対話するための2つの主要な設定がある。
オフライン手法は探索能力を犠牲にして効率よく報奨信号を得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 35.1606951874979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), there are two major settings for interacting
with the environment: online and offline. Online methods explore the
environment at significant time cost, and offline methods efficiently obtain
reward signals by sacrificing exploration capability. We propose semi-offline
RL, a novel paradigm that smoothly transits from offline to online settings,
balances exploration capability and training cost, and provides a theoretical
foundation for comparing different RL settings. Based on the semi-offline
formulation, we present the RL setting that is optimal in terms of optimization
cost, asymptotic error, and overfitting error bound. Extensive experiments show
that our semi-offline approach is efficient and yields comparable or often
better performance compared with state-of-the-art methods.
- Abstract(参考訳): 強化学習(RL)では、オンラインとオフラインの2つの主要な環境と相互作用する。
オンラインメソッドは環境をかなりの時間コストで探索し、オフラインメソッドは探索能力を犠牲にして報奨信号を効率的に得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
半オフラインの定式化に基づき、最適化コスト、漸近誤差、および誤差境界のオーバーフィットの観点から最適なrl設定を提案する。
広範な実験によって、私たちの半オフラインアプローチは効率的であり、最先端のメソッドと比較して同等か、あるいはしばしば優れたパフォーマンスが得られることが分かりました。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。
アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。
近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。
この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:52:22Z) - Hybrid Preference Optimization for Alignment: Provably Faster Convergence Rates by Combining Offline Preferences with Online Exploration [41.43588778427928]
大規模言語モデルと人間の嗜好を整合させる新しい手法を提案する。
アクティブなプライオリティクエリコストとリアルタイム実装オーバーヘッドのため、オンライン探索はコストがかかる可能性がある。
優先フィードバックを持つハイブリッドRLHFに対して、証明可能な理論境界を初めて与える。
論文 参考訳(メタデータ) (2024-12-13T23:42:24Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。
グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。
KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-03T15:51:04Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。