論文の概要: DEAS: DEtached value learning with Action Sequence for Scalable Offline RL
- arxiv url: http://arxiv.org/abs/2510.07730v1
- Date: Thu, 09 Oct 2025 03:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.833922
- Title: DEAS: DEtached value learning with Action Sequence for Scalable Offline RL
- Title(参考訳): DEAS: スケーラブルオフラインRLのためのアクションシーケンスによる切り離された価値学習
- Authors: Changyeon Kim, Haeone Lee, Younggyo Seo, Kimin Lee, Yuke Zhu,
- Abstract要約: Action Sequence(DEAS)は、アクションシーケンスをバリュー学習に活用する、シンプルだが効果的なオフラインRLフレームワークである。
DEASはOGBenchの複雑な長期タスクのベースラインを一貫して上回る。
大規模ビジョン・ランゲージ・アクションモデルの性能向上に応用できる。
- 参考スコア(独自算出の注目度): 46.40818333031899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) presents an attractive paradigm for training intelligent agents without expensive online interactions. However, current approaches still struggle with complex, long-horizon sequential decision making. In this work, we introduce DEtached value learning with Action Sequence (DEAS), a simple yet effective offline RL framework that leverages action sequences for value learning. These temporally extended actions provide richer information than single-step actions and can be interpreted through the options framework via semi-Markov decision process Q-learning, enabling reduction of the effective planning horizon by considering longer sequences at once. However, directly adopting such sequences in actor-critic algorithms introduces excessive value overestimation, which we address through detached value learning that steers value estimates toward in-distribution actions that achieve high return in the offline dataset. We demonstrate that DEAS consistently outperforms baselines on complex, long-horizon tasks from OGBench and can be applied to enhance the performance of large-scale Vision-Language-Action models that predict action sequences, significantly boosting performance in both RoboCasa Kitchen simulation tasks and real-world manipulation tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、高価なオンラインインタラクションなしで知的エージェントを訓練するための魅力的なパラダイムを提供する。
しかし、現在のアプローチは依然として複雑で長期にわたる意思決定に苦慮している。
本研究では,Datached Value Learning with Action Sequence (DEAS)を紹介した。
これらの時間的に拡張されたアクションは、シングルステップアクションよりもリッチな情報を提供し、オプションフレームワークを通じてセミマルコフ決定プロセスのQ-ラーニングを通じて解釈することができる。
しかし、アクター・クリティカルなアルゴリズムにそのようなシーケンスを直接適用すると過剰な値過大評価が発生し、オフラインデータセットで高いリターンを達成するイン・ディストリビューション・アクションに価値推定を導出する、分離された値学習を通じて対処する。
我々は,OGBenchの複雑な長期タスクのベースラインを一貫して上回り,アクションシーケンスを予測する大規模ビジョン・ランゲージ・アクションモデルの性能向上に応用できることを示し,RoboCasa Kitchenシミュレーションタスクと実世界の操作タスクの両方において性能を著しく向上させる。
関連論文リスト
- Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。
我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。
実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-10T17:48:03Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。