Fugu-MT 論文翻訳(概要): Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks

論文の概要: Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks

arxiv url: http://arxiv.org/abs/2206.01812v1
Date: Fri, 3 Jun 2022 20:38:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-12 16:35:20.368052
Title: Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks
Title（参考訳）: 組み合わさった長期RL課題の解決への挑戦
Authors: Andrew C. Li, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila A. McIlraith
Abstract要約: 高いレベルで多くの異なるソリューションを許容するタスクのセットを提案するが、状態の推論が必要であり、最高のパフォーマンスのために数千のステップを先延ばしする必要がある。汎用階層的RLアプローチは、抽象的なドメイン知識を活用できない限り、しばしば、ディスカウントによる長期的影響を無視する。
参考スコア（独自算出の注目度）: 25.37125069796657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning has shown promise in discrete domains requiring complex reasoning, including games such as Chess, Go, and Hanabi. However, this type of reasoning is less often observed in long-horizon, continuous domains with high-dimensional observations, where instead RL research has predominantly focused on problems with simple high-level structure (e.g. opening a drawer or moving a robot as fast as possible). Inspired by combinatorially hard optimization problems, we propose a set of robotics tasks which admit many distinct solutions at the high-level, but require reasoning about states and rewards thousands of steps into the future for the best performance. Critically, while RL has traditionally suffered on complex, long-horizon tasks due to sparse rewards, our tasks are carefully designed to be solvable without specialized exploration. Nevertheless, our investigation finds that standard RL methods often neglect long-term effects due to discounting, while general-purpose hierarchical RL approaches struggle unless additional abstract domain knowledge can be exploited.
Abstract（参考訳）: 深層強化学習は、チェス、go、hanabiなどのゲームを含む複雑な推論を必要とする個別領域で期待されている。しかし、このタイプの推論は、長方形の連続した高次元の領域ではあまり観測されず、rl研究は主に単純な高レベルな構造(例えば引き出しを開くかロボットをできるだけ速く動かすか)の問題に焦点を当てている。コンビネータリー・ハードな最適化問題に触発されて,高レベルに多くの異なるソリューションを許容するが,状態に関する推論が必要となり,最高のパフォーマンスのために数千ステップのステップを振り返るロボットタスクのセットを提案する。批判的に、rlは伝統的に、わずかな報酬のために複雑で長いホリゾンのタスクに苦しめられているが、我々のタスクは、特別な探索なしに解決できるよう慎重に設計されている。しかしながら,本研究では,従来のRL手法はディスカウントによる長期的影響を無視することが多いが,汎用的階層的RL手法では,抽象的なドメイン知識を活用できない場合が多い。

関連論文リスト

Where to Intervene: Action Selection in Deep Reinforcement Learning [5.470195794278266]
本稿では,モデルフリーで計算に親しみやすい特性を持つ汎用データ駆動型行動選択手法を提案する。提案手法は,最小限の動作を選択するだけでなく,ノックオフサンプリングによる誤検出率も制御する。
論文参考訳（メタデータ） (2025-07-05T23:40:55Z)
RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文参考訳（メタデータ） (2025-05-27T05:27:54Z)
DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning [33.66640909392995]
複雑で高次元的なタスクを解くには、目的のタスクに関連するより単純なタスクを解く必要があると論じる。目的タスクの方向の探索目標を選択するための,方向指示スパース逆目標条件付き超長距離RL(DISCOVER)を提案する。
論文参考訳（メタデータ） (2025-05-26T11:35:07Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Selective Exploration and Information Gathering in Search and Rescue Using Hierarchical Learning Guided by Natural Language Input [5.522800137785975]
本稿では,大規模言語モデル(LLM)と階層的強化学習(HRL)フレームワークを連携させるシステムを提案する。提案システムは,人間の利害関係者からの言語入力を実用的なRLインサイトへ翻訳し,検索戦略を調整するように設計されている。 LLMによる人為的情報の利用とHRLによるタスク実行の構造化により、長い地平線とスパース報酬を特徴とする環境におけるエージェントの学習効率と意思決定プロセスを大幅に改善する。
論文参考訳（メタデータ） (2024-09-20T12:27:47Z)
Granger Causal Interaction Skill Chains [35.143372688036685]
強化学習(Reinforcement Learning, RL)は複雑なタスクの学習方針において有望な結果を示してきたが、しばしばサンプル効率の低下と限られた伝達性に悩まされる。このアルゴリズムは、ドメイン内の制御性に着目し、高い制御を許す少数のタスクに依存しないスキルを識別する。また、一般的なRLベンチマークであるBreakoutの変種を用いて、COInSが学習したスキルの伝達性を実証し、標準のRLベースラインと比較してサンプル効率と最終性能を2～3倍改善したことを示す。
論文参考訳（メタデータ） (2023-06-15T21:06:54Z)
PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文参考訳（メタデータ） (2022-12-24T19:46:47Z)
Wish you were here: Hindsight Goal Selection for long-horizon dexterous manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文参考訳（メタデータ） (2021-12-01T16:12:32Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文参考訳（メタデータ） (2021-05-24T15:05:58Z)
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。深部RLにおける一般的な課題と,それらの課題について論じる。また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文参考訳（メタデータ） (2021-02-04T22:09:28Z)
Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文参考訳（メタデータ） (2020-04-06T17:50:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。