論文の概要: Towards Deployable RL -- What's Broken with RL Research and a Potential
Fix
- arxiv url: http://arxiv.org/abs/2301.01320v1
- Date: Tue, 3 Jan 2023 19:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:13:24.303242
- Title: Towards Deployable RL -- What's Broken with RL Research and a Potential
Fix
- Title(参考訳): デプロイ可能なRLを目指して - RL研究の失敗と潜在的な修正
- Authors: Shie Mannor and Aviv Tamar
- Abstract要約: コミュニティの方向性に精通していると感じている現在の研究の難しさを指摘する。
我々にとって、現在の方向は「展開可能な」RLに繋がる可能性は低い。
- 参考スコア(独自算出の注目度): 82.34145109359442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated great potential, but is
currently full of overhyping and pipe dreams. We point to some difficulties
with current research which we feel are endemic to the direction taken by the
community. To us, the current direction is not likely to lead to "deployable"
RL: RL that works in practice and can work in practical situations yet still is
economically viable. We also propose a potential fix to some of the
difficulties of the field.
- Abstract(参考訳): 強化学習(rl)は大きな可能性を秘めているが、現在はハイプとパイプの夢に満ちている。
我々は,現在の研究の難しさを指摘し,コミュニティの方向性に賛同している。
当社にとって、現在の方向性は、実際に機能し、実践的な状況でも機能するが、経済的に実行可能なRL: RLにつながる可能性は低い。
また,この分野の課題のいくつかに対する潜在的な修正も提案する。
関連論文リスト
- Abstracted Trajectory Visualization for Explainability in Reinforcement
Learning [2.1028463367241033]
説明可能なAI(XAI)は、強化学習(RL)実践者がRLモデルがどのように機能するかを理解するのに役立つ可能性を実証している。
RLの専門知識を持たないユーザ(非RLの専門家)のためのXAIは、十分に研究されていない。
我々は、RLモデルの主要な状態間の遷移を描写した抽象軌道は、非RLの専門家がエージェントのメンタルモデルを構築するのに役立つと論じる。
論文 参考訳(メタデータ) (2024-02-05T21:17:44Z) - Deploying Deep Reinforcement Learning Systems: A Taxonomy of Challenges [13.39623605590729]
DRLシステムのデプロイにおいて,実践者が直面する課題を明らかにし,理解するために,開発者の最も人気のあるQ&AフォーラムであるStack Overflow(SO)に関する実証的研究を提案する。
フィルタと手動解析を行い,DRLの展開に関する357のSOポストを調査し,現状を調査し,DRLシステムの展開に関わる課題を特定した。
その結果、DRLの展開に対する一般的な関心が高まり、研究の妥当性と重要性が確認されている。
論文 参考訳(メタデータ) (2023-08-23T21:44:09Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Generalization in Deep RL for TSP Problems via Equivariance and Local
Search [21.07325126324399]
本稿では,新しいRL学習手法を用いて学習する,シンプルなディープラーニングアーキテクチャを提案する。
我々は,関連する最先端の深部RL法に対して,ランダムかつ現実的なTSP問題に関する提案を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-07T16:20:37Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。