論文の概要: Skill Decision Transformer
- arxiv url: http://arxiv.org/abs/2301.13573v1
- Date: Tue, 31 Jan 2023 11:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:38:07.073201
- Title: Skill Decision Transformer
- Title(参考訳): スキル決定変換器
- Authors: Shyam Sudhakaran and Sebastian Risi
- Abstract要約: 大規模言語モデル(LLM)はオフライン強化学習(RL)に驚くほど効果的である
一般化決定変換器(GDT)は、情報統計の形で将来の軌跡情報を利用することで、オフライン軌跡データからより多くの情報を抽出できることを示した。
Skill DTはオフライン状態マージマッチング(SMM)だけでなく、簡単にサンプル化できる記述的動作の発見も可能であることを示す。
- 参考スコア(独自算出の注目度): 9.387749254963595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that Large Language Models (LLMs) can be incredibly
effective for offline reinforcement learning (RL) by representing the
traditional RL problem as a sequence modelling problem (Chen et al., 2021;
Janner et al., 2021). However many of these methods only optimize for high
returns, and may not extract much information from a diverse dataset of
trajectories. Generalized Decision Transformers (GDTs) (Furuta et al., 2021)
have shown that utilizing future trajectory information, in the form of
information statistics, can help extract more information from offline
trajectory data. Building upon this, we propose Skill Decision Transformer
(Skill DT). Skill DT draws inspiration from hindsight relabelling (Andrychowicz
et al., 2017) and skill discovery methods to discover a diverse set of
primitive behaviors, or skills. We show that Skill DT can not only perform
offline state-marginal matching (SMM), but can discovery descriptive behaviors
that can be easily sampled. Furthermore, we show that through purely
reward-free optimization, Skill DT is still competitive with supervised offline
RL approaches on the D4RL benchmark. The code and videos can be found on our
project page: https://github.com/shyamsn97/skill-dt
- Abstract(参考訳): 近年の研究では、従来のRL問題をシーケンスモデリング問題(Chen et al., 2021; Janner et al., 2021)として表現することで、LLM(Large Language Models)がオフライン強化学習(RL)に極めて効果的であることが示されている。
しかし、これらの手法の多くは高リターンのみを最適化し、多種多様なデータ集合から多くの情報を抽出することはできない。
一般化決定変換器(GDT) (Furuta et al., 2021) は、情報統計の形で将来の軌跡情報を活用することにより、オフライン軌跡データからより多くの情報を抽出できることを示した。
そこで我々は,Skill Decision Transformer (Skill DT)を提案する。
Skill DTは、さまざまなプリミティブな振る舞いやスキルを見つけるための、後から見直す(Andrychowicz et al., 2017)スキル発見手法からインスピレーションを得ている。
Skill DTはオフライン状態マージマッチング(SMM)だけでなく、簡単にサンプル化できる記述的動作の発見も可能であることを示す。
さらに、純粋に報酬のない最適化によって、D4RLベンチマークにおける教師付きオフラインRLアプローチとSkill DTがいまだに競合していることを示す。
コードとビデオは、プロジェクトのページにある。 https://github.com/shyamsn97/skill-dt
関連論文リスト
- EXTRACT: Efficient Policy Learning by Extracting Transferrable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - When should we prefer Decision Transformers for Offline Reinforcement
Learning? [29.107029606830015]
オフラインRLのための3つの一般的なアルゴリズムは、保守的Q-Learning(CQL)、振舞いクローン(BC)、決定変換器(DT)である。
本稿では,これらのアルゴリズムの性能を,一般的なD4RLとロブミミシティのベンチマークで検証することによって実証的に検討する。
DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。
論文 参考訳(メタデータ) (2023-05-23T22:19:14Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。