Fugu-MT 論文翻訳(概要): Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning

論文の概要: Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.19805v3
Date: Tue, 21 Nov 2023 14:50:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 04:28:39.243982
Title: Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning
Title（参考訳）: オフライン-オンライン強化学習におけるサンプル効率向上
Authors: Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang
Abstract要約: 本稿では,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増大手法を提案する。 SERAはエージェントに対してQ条件付きエントロピーを報酬として計算することで探索を奨励する。様々なRLアルゴリズムにプラグインすることで、オンラインの微調整を改善し、継続的な改善を保証することができる。
参考スコア（独自算出の注目度）: 32.0689406340166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline-to-online RL can make full use of pre-collected offline datasets to initialize policies, resulting in higher sample efficiency and better performance compared to only using online algorithms alone for policy training. However, direct fine-tuning of the pre-trained policy tends to result in sub-optimal performance. A primary reason is that conservative offline RL methods diminish the agent's capability of exploration, thereby impacting online fine-tuning performance. To encourage agent's exploration during online fine-tuning and enhance the overall online fine-tuning performance, we propose a generalized reward augmentation method called Sample Efficient Reward Augmentation (SERA). Specifically, SERA encourages agent to explore by computing Q conditioned entropy as intrinsic reward. The advantage of SERA is that it can extensively utilize offline pre-trained Q to encourage agent uniformly coverage of state space while considering the imbalance between the distributions of high-value and low-value states. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement. Moreover, extensive experimental results demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.
Abstract（参考訳）: オフラインからオンラインへのrlは、事前収集されたオフラインデータセットをフル活用してポリシを初期化することで、オンラインアルゴリズムのみを使用してポリシトレーニングを行うよりも、サンプル効率とパフォーマンスが向上する。しかし、事前訓練されたポリシーを直接微調整すると準最適性能が生じる傾向にある。主な理由は、保守的なオフラインrlメソッドがエージェントの探索能力を低下させ、結果としてオンラインの微調整性能に影響を及ぼすためである。オンラインファインチューニングにおけるエージェントの探索を奨励し,全体のオンラインファインチューニング性能を高めるため,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強手法を提案する。具体的には、q条件エントロピーを内在的な報酬として計算することでエージェントが探索することを推奨する。 SERAの利点は、オフライン事前訓練Qを利用して、高値状態と低値状態の分布の不均衡を考慮して、エージェントが一様に状態空間をカバーできるようにすることである。さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、漸近的な改善を継続することができる。さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証された。

関連論文リスト

Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。 QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2026-01-20T18:45:34Z)
In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文参考訳（メタデータ） (2026-01-06T13:41:31Z)
Bayesian-based Online Label Shift Estimation with Dynamic Dirichlet Priors [4.8239078213401]
FMAPLS(Full Maximum A Posterior Label Shift)と呼ばれるラベルシフト推定のためのベイズ的フレームワークを提案する。その結果、FMAPLSとオンラインFMAPLSはそれぞれ40%と12%のKLのばらつきを達成できた。これらの結果は,大規模および動的学習シナリオに対する提案手法の堅牢性,拡張性,適合性を確認した。
論文参考訳（メタデータ） (2025-11-23T21:10:49Z)
Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文参考訳（メタデータ） (2025-09-27T21:15:22Z)
Breaking Through Barren Plateaus: Reinforcement Learning Initializations for Deep Variational Quantum Circuits [21.491246867521053]
変分量子アルゴリズム(VQA)は、短期量子デバイスを活用可能なフレームワークとして注目されている。 VQAの有効性は、システムサイズや回路深さが増加するにつれて勾配が指数関数的に減少するいわゆるバレン高原問題によって制約されることが多い。
論文参考訳（メタデータ） (2025-08-25T21:37:36Z)
Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
A Preliminary Investigation on the Usage of Quantum Approximate Optimization Algorithms for Test Case Selection [2.1929683225837078]
この研究は、テストケースの選択に量子近似最適化アルゴリズム(QAOAs)の使用を想定している。 QAOAsは、ゲートベースの量子マシンのポテンシャルと、断熱進化の最適化能力とを融合する。この結果から,QAOAsは効率面ではSelectQAに匹敵する性能を示しながら,ベースラインアルゴリズムよりも優れた性能を示した。
論文参考訳（メタデータ） (2025-04-26T15:38:01Z)
SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文参考訳（メタデータ） (2025-01-15T09:04:19Z)
SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文参考訳（メタデータ） (2025-01-07T10:22:30Z)
On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文参考訳（メタデータ） (2024-12-27T20:29:47Z)
Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文参考訳（メタデータ） (2024-10-14T17:17:19Z)
Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。オフライン強化学習による分散学習(Offline-LD)について紹介する。
論文参考訳（メタデータ） (2024-09-16T15:18:10Z)
A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文参考訳（メタデータ） (2023-12-12T19:24:35Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文参考訳（メタデータ） (2023-02-05T14:22:41Z)
The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文参考訳（メタデータ） (2022-03-14T17:59:01Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。 AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文参考訳（メタデータ） (2021-11-17T14:48:52Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文参考訳（メタデータ） (2021-10-04T16:40:13Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。