論文の概要: RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking
- arxiv url: http://arxiv.org/abs/2605.11151v2
- Date: Wed, 20 May 2026 06:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.011549
- Title: RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking
- Title(参考訳): RankQ: 自己監督行動ランキングによるオフライン・オンライン強化学習
- Authors: Andrew Choi, Wei Xu,
- Abstract要約: 時間差学習を自己監督型多段階ランキング損失で強化するオフライン-オンラインQ-ラーニング目標であるRankQを提案する。
スパース報酬D4RLベンチマーク全体で、RankQは7つの先行メソッドと競合するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 9.119041251491991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline-to-online reinforcement learning (RL) improves sample efficiency by leveraging pre-collected datasets prior to online interaction. A key challenge, however, is learning an accurate critic in large state--action spaces with limited dataset coverage. To mitigate harmful updates from value overestimation, prior methods impose pessimism by down-weighting out-of-distribution (OOD) actions relative to dataset actions. While effective, this essentially acts as a behavior cloning anchor and can hinder downstream online policy improvement when dataset actions are suboptimal. We propose RankQ, an offline-to-online Q-learning objective that augments temporal-difference learning with a self-supervised multi-term ranking loss to enforce structured action ordering. By learning relative action preferences rather than uniformly penalizing unseen actions, RankQ shapes the Q-function such that action gradients are directed toward higher-quality behaviors. Across sparse reward D4RL benchmarks, RankQ achieves performance competitive with or superior to seven prior methods. In vision-based robot learning, RankQ enables effective offline-to-online fine-tuning of a pretrained vision-language-action (VLA) model in a low-data regime, achieving on average a 42.7% higher simulation success rate than the next best method. In a high-data setting, RankQ improves simulation performance by 13.7% over the next best method and achieves strong sim-to-real transfer, increasing real-world cube stacking success from 43.1% to 88.9% relative to the VLA's initial performance.
- Abstract(参考訳): オフライン-オンライン強化学習(RL)は、オンラインインタラクションに先立って、事前コンパイルされたデータセットを活用することで、サンプル効率を向上させる。
しかし、重要な課題は、データセットのカバレッジが制限された大規模なステートアクションスペースにおいて、正確な批判を学ぶことだ。
価値過大評価から有害な更新を緩和するために、事前の手法はデータセットアクションに対するアウト・オブ・ディストリビューション(OOD)アクションを低くすることで悲観性を強制する。
効果的ではあるが、これは基本的に行動のクローンアンカーとして機能し、データセットアクションが最適でない場合、下流のオンラインポリシー改善を妨げる可能性がある。
我々は,時間差学習を自己監督型多段階ランキング損失で強化し,構造化された行動順序を強制するオフライン-オンラインQ-ラーニングの目的であるRanQを提案する。
目に見えない動作を均一に罰するよりも、相対的な行動選好を学習することにより、RanQはQ-関数を、行動勾配が高品質な行動に向けられるように形作る。
スパース報酬D4RLベンチマーク全体で、RankQは7つの先行メソッドと競合するパフォーマンスを達成する。
視覚に基づくロボット学習において、RandQは、訓練済みの視覚言語アクション(VLA)モデルのオフラインからオンラインまでの効果的な微調整を可能にし、次の最良の方法よりも平均42.7%のシミュレーション成功率を達成する。
高データ設定では、RankQは次のベストメソッドよりも13.7%向上し、強力なsim-to-real転送を実現し、実世界の立方体積み重ねの成功率はVLAの初期性能と比較して43.1%から88.9%に増加した。
関連論文リスト
- Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2025-02-01T03:04:53Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Boosting Offline Reinforcement Learning with Action Preference Query [32.94932149345299]
実践的エージェントの訓練は通常、政策のパフォーマンスと相互作用コストのバランスをとるために、オフラインおよびオンライン強化学習(RL)を含む。
オンラインファインチューニングは、オフライントレーニングフェーズで学習したアウト・オブ・ディストリビューションデータの誤った推定を補正するために一般的に用いられている方法となっている。
本研究では,Offline-with-Action-Preferences (OAP) と呼ばれるインタラクションフリーのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-06T02:29:40Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。