Fugu-MT 論文翻訳(概要): Semi-Offline Reinforcement Learning for Optimized Text Generation

論文の概要: Semi-Offline Reinforcement Learning for Optimized Text Generation

arxiv url: http://arxiv.org/abs/2306.09712v1
Date: Fri, 16 Jun 2023 09:24:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 14:31:36.242360
Title: Semi-Offline Reinforcement Learning for Optimized Text Generation
Title（参考訳）: テキスト生成最適化のための半オフライン強化学習
Authors: Changyu Chen, Xiting Wang, Yiqiao Jin, Victor Ye Dong, Li Dong, Jie Cao, Yi Liu, Rui Yan
Abstract要約: 強化学習(RL)では、オンラインとオフラインという、環境と対話するための2つの主要な設定がある。オフライン手法は探索能力を犠牲にして効率よく報奨信号を得る。オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
参考スコア（独自算出の注目度）: 35.1606951874979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In reinforcement learning (RL), there are two major settings for interacting with the environment: online and offline. Online methods explore the environment at significant time cost, and offline methods efficiently obtain reward signals by sacrificing exploration capability. We propose semi-offline RL, a novel paradigm that smoothly transits from offline to online settings, balances exploration capability and training cost, and provides a theoretical foundation for comparing different RL settings. Based on the semi-offline formulation, we present the RL setting that is optimal in terms of optimization cost, asymptotic error, and overfitting error bound. Extensive experiments show that our semi-offline approach is efficient and yields comparable or often better performance compared with state-of-the-art methods.
Abstract（参考訳）: 強化学習(RL)では、オンラインとオフラインの2つの主要な環境と相互作用する。オンラインメソッドは環境をかなりの時間コストで探索し、オフラインメソッドは探索能力を犠牲にして報奨信号を効率的に得る。オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。半オフラインの定式化に基づき、最適化コスト、漸近誤差、および誤差境界のオーバーフィットの観点から最適なrl設定を提案する。広範な実験によって、私たちの半オフラインアプローチは効率的であり、最先端のメソッドと比較して同等か、あるいはしばしば優れたパフォーマンスが得られることが分かりました。

関連論文リスト

Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文参考訳（メタデータ） (2025-06-26T17:25:49Z)
MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文参考訳（メタデータ） (2025-06-11T10:12:50Z)
Yes, Q-learning Helps Offline In-Context RL [69.26691452160505]
RL目標の最適化は,広く確立されたアルゴリズム蒸留(AD)ベースラインと比較して,平均で約40%向上することを示す。また、オフラインのRLベースの手法は、オフラインのシナリオに特化して設計されていないオンラインアプローチよりも優れていることも明らかにした。
論文参考訳（メタデータ） (2025-02-24T21:29:06Z)
Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文参考訳（メタデータ） (2024-12-25T09:52:22Z)
Hybrid Preference Optimization for Alignment: Provably Faster Convergence Rates by Combining Offline Preferences with Online Exploration [41.43588778427928]
大規模言語モデルと人間の嗜好を整合させる新しい手法を提案する。アクティブなプライオリティクエリコストとリアルタイム実装オーバーヘッドのため、オンライン探索はコストがかかる可能性がある。優先フィードバックを持つハイブリッドRLHFに対して、証明可能な理論境界を初めて与える。
論文参考訳（メタデータ） (2024-12-13T23:42:24Z)
A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。 TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文参考訳（メタデータ） (2024-07-12T16:44:03Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。 KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文参考訳（メタデータ） (2024-06-03T15:51:04Z)
Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。オフラインRLの主な課題の1つは、分散シフトである。分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-27T19:19:30Z)
Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。 FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文参考訳（メタデータ） (2023-10-27T08:30:54Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文参考訳（メタデータ） (2023-05-17T15:17:23Z)
On the Role of Discount Factor in Offline Reinforcement Learning [25.647624787936028]
割引係数である$gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たす。本稿では、理論解析によるオフラインRLにおける$gamma$の2つの異なる効果について検討する。その結果, オフラインRLアルゴリズムの性能において, 割引係数が重要な役割を担っていることが明らかとなった。
論文参考訳（メタデータ） (2022-06-07T15:22:42Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。