論文の概要: Learning to Locomote: Understanding How Environment Design Matters for
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.04304v1
- Date: Fri, 9 Oct 2020 00:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:26:27.233786
- Title: Learning to Locomote: Understanding How Environment Design Matters for
Deep Reinforcement Learning
- Title(参考訳): Locomoteへの学習: 深層強化学習における環境設計の意義を理解する
- Authors: Daniele Reda, Tianxin Tao, Michiel van de Panne
- Abstract要約: 環境設計が重要な課題であることを示し、それが多くのRL結果の脆い性質にどのように貢献するかを文書化する。
具体的には、状態表現、初期状態分布、報酬構造、制御周波数、エピソード終了手順、カリキュラム使用法、動作空間、トルク制限に関する選択について検討する。
このような選択に関する議論を刺激することを目的としており、実際に、ローコライト学習などのアニメーションに対する関心の連続的な操作制御問題に適用した場合、RLの成功に強く影響する。
- 参考スコア(独自算出の注目度): 7.426118390008397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to locomote is one of the most common tasks in physics-based
animation and deep reinforcement learning (RL). A learned policy is the product
of the problem to be solved, as embodied by the RL environment, and the RL
algorithm. While enormous attention has been devoted to RL algorithms, much
less is known about the impact of design choices for the RL environment. In
this paper, we show that environment design matters in significant ways and
document how it can contribute to the brittle nature of many RL results.
Specifically, we examine choices related to state representations, initial
state distributions, reward structure, control frequency, episode termination
procedures, curriculum usage, the action space, and the torque limits. We aim
to stimulate discussion around such choices, which in practice strongly impact
the success of RL when applied to continuous-action control problems of
interest to animation, such as learning to locomote.
- Abstract(参考訳): locomoteへの学習は、物理ベースのアニメーションと深層強化学習(rl)において最も一般的なタスクの1つである。
学習されたポリシーは、RL環境とRLアルゴリズムによって具現化されているように、解決すべき問題の産物である。
RLアルゴリズムに多大な関心が向けられているが、RL環境の設計選択の影響についてはあまり知られていない。
本稿では,環境設計が重要な課題であることを示すとともに,多くのRL結果の脆性にどのように寄与するかを示す。
具体的には, 状態表現, 初期状態分布, 報酬構造, 制御周波数, エピソード終了手順, カリキュラム使用, 動作空間, トルク制限に関する選択について検討する。
このような選択に関する議論を刺激することを目指しており、例えばlocomoteへの学習など、アニメーションに関心のある継続的なアクション制御問題に適用するときにrlの成功に大きな影響を与えている。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Explaining RL Decisions with Trajectories [28.261758841898697]
説明は、実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
論文 参考訳(メタデータ) (2023-05-06T15:26:22Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Design Process is a Reinforcement Learning Problem [0.0]
設計プロセスは強化学習の問題であり、RLアルゴリズムの適切な応用になり得ると我々は主張する。
これはRLメソッドを使用する機会を生み出し、同時に課題を提起する。
論文 参考訳(メタデータ) (2022-11-06T14:37:22Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Generalization in Deep RL for TSP Problems via Equivariance and Local
Search [21.07325126324399]
本稿では,新しいRL学習手法を用いて学習する,シンプルなディープラーニングアーキテクチャを提案する。
我々は,関連する最先端の深部RL法に対して,ランダムかつ現実的なTSP問題に関する提案を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-07T16:20:37Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。