論文の概要: Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network
- arxiv url: http://arxiv.org/abs/2502.00288v1
- Date: Sat, 01 Feb 2025 03:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:48.134063
- Title: Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network
- Title(参考訳): 自己回帰型ソフトQ-ネットワークによる連続制御における最適データからの学習
- Authors: Jijia Liu, Feng Gao, Qingmin Liao, Chao Yu, Yu Wang,
- Abstract要約: 本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
- 参考スコア(独自算出の注目度): 23.481553466650453
- License:
- Abstract: Reinforcement learning (RL) for continuous control often requires large amounts of online interaction data. Value-based RL methods can mitigate this burden by offering relatively high sample efficiency. Some studies further enhance sample efficiency by incorporating offline demonstration data to "kick-start" training, achieving promising results in continuous control. However, they typically compute the Q-function independently for each action dimension, neglecting interdependencies and making it harder to identify optimal actions when learning from suboptimal data, such as non-expert demonstration and online-collected data during the training process. To address these issues, we propose Auto-Regressive Soft Q-learning (ARSQ), a value-based RL algorithm that models Q-values in a coarse-to-fine, auto-regressive manner. First, ARSQ decomposes the continuous action space into discrete spaces in a coarse-to-fine hierarchy, enhancing sample efficiency for fine-grained continuous control tasks. Next, it auto-regressively predicts dimensional action advantages within each decision step, enabling more effective decision-making in continuous control tasks. We evaluate ARSQ on two continuous control benchmarks, RLBench and D4RL, integrating demonstration data into online training. On D4RL, which includes non-expert demonstrations, ARSQ achieves an average $1.62\times$ performance improvement over SOTA value-based baseline. On RLBench, which incorporates expert demonstrations, ARSQ surpasses various baselines, demonstrating its effectiveness in learning from suboptimal online-collected data.
- Abstract(参考訳): 継続的制御のための強化学習(RL)は、しばしば大量のオンラインインタラクションデータを必要とする。
値ベースのRL法は、比較的高いサンプル効率を提供することで、この負担を軽減することができる。
いくつかの研究は、オフラインのデモデータを"キックスタート"トレーニングに組み込むことで、サンプル効率をさらに向上させ、継続的な制御において有望な結果を達成する。
しかし、彼らは通常、各アクションの次元ごとに独立してQ-関数を計算し、相互依存を無視し、トレーニングプロセス中に非専門的なデモンストレーションやオンライン収集データなどの最適データから学習する際の最適なアクションを特定するのを難しくする。
これらの問題に対処するために、我々は、粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるAuto-Regressive Soft Q-learning (ARSQ)を提案する。
まず、ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
次に、各決定ステップ内の次元的行動優位性を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
RLBench と D4RL の2つの連続制御ベンチマーク上で ARSQ を評価し,実演データをオンライントレーニングに統合した。
非専門的なデモを含むD4RLでは、ARSQはSOTA値ベースのベースラインよりも平均1.62\times$パフォーマンスの改善を達成した。
専門家によるデモンストレーションを取り入れたRLBenchでは、ARSQはさまざまなベースラインを超え、最適でないオンライン収集データから学習する上での有効性を実証している。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Digital Twin Assisted Deep Reinforcement Learning for Online Admission
Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。
ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。
DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-10-07T09:09:19Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。