論文の概要: Bridging Supervised and Temporal Difference Learning with $Q$-Conditioned Maximization
- arxiv url: http://arxiv.org/abs/2506.00795v1
- Date: Sun, 01 Jun 2025 02:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.596791
- Title: Bridging Supervised and Temporal Difference Learning with $Q$-Conditioned Maximization
- Title(参考訳): Q$-conditioned Maximizationによるブリッジと時間差分学習
- Authors: Xing Lei, Zifeng Zhuang, Shentao Yang, Sheng Xu, Yunhao Luo, Fei Shen, Xuetao Zhang, Donglin Wang,
- Abstract要約: 教師付き学習(SL)は, 簡易性, 安定性, 効率性から, オフライン強化学習(RL)の効果的なアプローチとして出現している。
近年の研究では、SL法は、典型的には時間差(TD)に基づくアプローチと関連する、軌道縫合能力が欠如していることが示されている。
オフライン目標条件付きRLのためのQ$条件付き教師あり学習を提案する。
- 参考スコア(独自算出の注目度): 23.468621564156056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, supervised learning (SL) methodology has emerged as an effective approach for offline reinforcement learning (RL) due to their simplicity, stability, and efficiency. However, recent studies show that SL methods lack the trajectory stitching capability, typically associated with temporal difference (TD)-based approaches. A question naturally surfaces: How can we endow SL methods with stitching capability and bridge its performance gap with TD learning? To answer this question, we introduce $Q$-conditioned maximization supervised learning for offline goal-conditioned RL, which enhances SL with the stitching capability through $Q$-conditioned policy and $Q$-conditioned maximization. Concretely, we propose Goal-Conditioned Reinforced Supervised Learning (GCReinSL), which consists of (1) estimating the $Q$-function by CVAE from the offline dataset and (2) finding the maximum $Q$-value within the data support by integrating $Q$-function maximization with Expectile Regression. In inference time, our policy chooses optimal actions based on such a maximum $Q$-value. Experimental results from stitching evaluations on offline RL datasets demonstrate that our method outperforms prior SL approaches with stitching capabilities and goal data augmentation techniques.
- Abstract(参考訳): 近年,教師付き学習 (SL) 手法は, 簡易性, 安定性, 効率性から, オフライン強化学習 (RL) に有効な手法として出現している。
しかし、最近の研究では、SL法は典型的には時間差(TD)に基づくアプローチと関連する軌道縫合能力が欠如していることが示されている。
縫合能力を備えたSLメソッドをどうやって実現し、その性能ギャップをTD学習で埋めることができるのか?
この質問に答えるために、オフラインのゴール条件付きRLに対して、$Q$条件付き最大化学習を導入し、$Q$条件付きポリシーと$Q$条件付き最大化を通じて、縫合能力でSLを強化する。
具体的には、(1)オフラインデータセットからCVAEによって$Q$関数を推定し、(2)予測回帰と$Q$関数の最大値を統合することにより、データサポート内で最大$Q$値を求める。
推論時間では、この最大値Q$-値に基づいて最適なアクションを選択する。
オフラインRLデータセットの縫合評価による実験結果から,本手法は,縫合能力と目標データ拡張技術により,従来のSL手法よりも優れていたことが判明した。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning [20.07425661382103]
Q$-Aided Conditional Supervised Learningは、RCSLの安定性と$Q$-functionの縫合能力を組み合わせる。
QCSは、トラジェクトリリターンに基づいたRCSLの損失関数に$Q$-aidを適応的に統合する。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。