論文の概要: Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks
- arxiv url: http://arxiv.org/abs/2206.01812v1
- Date: Fri, 3 Jun 2022 20:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 16:35:20.368052
- Title: Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks
- Title(参考訳): 組み合わさった長期RL課題の解決への挑戦
- Authors: Andrew C. Li, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A.
McIlraith
- Abstract要約: 高いレベルで多くの異なるソリューションを許容するタスクのセットを提案するが、状態の推論が必要であり、最高のパフォーマンスのために数千のステップを先延ばしする必要がある。
汎用階層的RLアプローチは、抽象的なドメイン知識を活用できない限り、しばしば、ディスカウントによる長期的影響を無視する。
- 参考スコア(独自算出の注目度): 25.37125069796657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning has shown promise in discrete domains requiring
complex reasoning, including games such as Chess, Go, and Hanabi. However, this
type of reasoning is less often observed in long-horizon, continuous domains
with high-dimensional observations, where instead RL research has predominantly
focused on problems with simple high-level structure (e.g. opening a drawer or
moving a robot as fast as possible). Inspired by combinatorially hard
optimization problems, we propose a set of robotics tasks which admit many
distinct solutions at the high-level, but require reasoning about states and
rewards thousands of steps into the future for the best performance.
Critically, while RL has traditionally suffered on complex, long-horizon tasks
due to sparse rewards, our tasks are carefully designed to be solvable without
specialized exploration. Nevertheless, our investigation finds that standard RL
methods often neglect long-term effects due to discounting, while
general-purpose hierarchical RL approaches struggle unless additional abstract
domain knowledge can be exploited.
- Abstract(参考訳): 深層強化学習は、チェス、go、hanabiなどのゲームを含む複雑な推論を必要とする個別領域で期待されている。
しかし、このタイプの推論は、長方形の連続した高次元の領域ではあまり観測されず、rl研究は主に単純な高レベルな構造(例えば引き出しを開くかロボットをできるだけ速く動かすか)の問題に焦点を当てている。
コンビネータリー・ハードな最適化問題に触発されて,高レベルに多くの異なるソリューションを許容するが,状態に関する推論が必要となり,最高のパフォーマンスのために数千ステップのステップを振り返るロボットタスクのセットを提案する。
批判的に、rlは伝統的に、わずかな報酬のために複雑で長いホリゾンのタスクに苦しめられているが、我々のタスクは、特別な探索なしに解決できるよう慎重に設計されている。
しかしながら,本研究では,従来のRL手法はディスカウントによる長期的影響を無視することが多いが,汎用的階層的RL手法では,抽象的なドメイン知識を活用できない場合が多い。
関連論文リスト
- Combinatorial Optimization with Policy Adaptation using Latent Space
Search [46.02102888864839]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。
我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T12:24:54Z) - Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2023-03-07T01:38:42Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - Wish you were here: Hindsight Goal Selection for long-horizon dexterous
manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。
既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。
実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文 参考訳(メタデータ) (2021-12-01T16:12:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - How to Train Your Robot with Deep Reinforcement Learning; Lessons We've
Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。
深部RLにおける一般的な課題と,それらの課題について論じる。
また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文 参考訳(メタデータ) (2021-02-04T22:09:28Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。