論文の概要: Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions
- arxiv url: http://arxiv.org/abs/2309.10150v2
- Date: Tue, 17 Oct 2023 07:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:40:12.720829
- Title: Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions
- Title(参考訳): Q-Transformer: 自動回帰Q-Functionによるスケーラブルオフライン強化学習
- Authors: Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao
Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana
Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar,
Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar
Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey
Levine
- Abstract要約: 大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法は,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現を実現するためにTransformerを用いている。
そこで本研究では,Q-Transformerが,多種多様な実世界のロボット操作タスクスイート上で,事前のオフラインRLアルゴリズムと模倣学習技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 143.89572689302497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a scalable reinforcement learning method for
training multi-task policies from large offline datasets that can leverage both
human demonstrations and autonomously collected data. Our method uses a
Transformer to provide a scalable representation for Q-functions trained via
offline temporal difference backups. We therefore refer to the method as
Q-Transformer. By discretizing each action dimension and representing the
Q-value of each action dimension as separate tokens, we can apply effective
high-capacity sequence modeling techniques for Q-learning. We present several
design decisions that enable good performance with offline RL training, and
show that Q-Transformer outperforms prior offline RL algorithms and imitation
learning techniques on a large diverse real-world robotic manipulation task
suite. The project's website and videos can be found at
https://qtransformer.github.io
- Abstract(参考訳): 本研究では、大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法では,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現にTransformerを用いる。
したがって、この手法をQ-Transformerと呼ぶ。
各動作次元を識別し、各アクション次元のq値を分離トークンとして表現することにより、q学習に効果的な高容量シーケンスモデリング手法を適用することができる。
我々は,オフラインrlトレーニングで優れた性能を実現する設計決定をいくつか提示し,q-transformerが従来のオフラインrlアルゴリズムや模倣学習技術を,多種多様な実世界のロボット操作タスクスイートで上回っていることを示す。
プロジェクトのWebサイトとビデオはhttps://qtransformer.github.ioで見ることができる。
関連論文リスト
- Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Solving Multi-Goal Robotic Tasks with Decision Transformer [0.0]
ロボット工学におけるオフラインマルチゴール強化学習のための決定変換器アーキテクチャの新しい適応法を提案する。
われわれのアプローチでは、ゴール固有の情報を意思決定変換器に統合し、オフライン環境で複雑なタスクを処理できる。
論文 参考訳(メタデータ) (2024-10-08T20:35:30Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。