論文の概要: How to Choose a Reinforcement-Learning Algorithm
- arxiv url: http://arxiv.org/abs/2407.20917v1
- Date: Tue, 30 Jul 2024 15:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:40:36.048479
- Title: How to Choose a Reinforcement-Learning Algorithm
- Title(参考訳): 強化学習アルゴリズムの選択方法
- Authors: Fabian Bongratz, Vladimir Golkov, Lukas Mautner, Luca Della Libera, Frederik Heetmeyer, Felix Czaja, Julian Rodemann, Daniel Cremers,
- Abstract要約: 我々は、強化学習アルゴリズムと行動配信ファミリーを選択するプロセスの合理化を図る。
既存のメソッドとその特性に関する構造化された概要と、どのメソッドを選択するかのガイドラインを提供する。
- 参考スコア(独自算出の注目度): 29.76033485145459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The field of reinforcement learning offers a large variety of concepts and methods to tackle sequential decision-making problems. This variety has become so large that choosing an algorithm for a task at hand can be challenging. In this work, we streamline the process of choosing reinforcement-learning algorithms and action-distribution families. We provide a structured overview of existing methods and their properties, as well as guidelines for when to choose which methods. An interactive version of these guidelines is available online at https://rl-picker.github.io/.
- Abstract(参考訳): 強化学習の分野は、シーケンシャルな意思決定問題に取り組むための様々な概念と方法を提供している。
この多様性はあまりに大きくなり、手元にあるタスクのアルゴリズムを選択することは難しくなっている。
本研究では,強化学習アルゴリズムと行動分配ファミリーを選択するプロセスの合理化について述べる。
既存のメソッドとその特性に関する構造化された概要と、どのメソッドを選択するかのガイドラインを提供する。
これらのガイドラインのインタラクティブ版がhttps://rl-picker.github.io/.comで公開されている。
関連論文リスト
- Interactively Teaching an Inverse Reinforcement Learner with Limited
Feedback [4.174296652683762]
逐次意思決定課題における実演を通しての授業の課題について検討する。
本研究では,学習過程を限られたフィードバックで形式化し,この問題を解決するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-16T21:12:04Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Reusable Options through Gradient-based Meta Learning [24.59017394648942]
エンド・ツー・エンドでオプションの形で時間的抽象化を学ぶために、いくつかのディープラーニングアプローチが提案された。
学習オプションの問題は、勾配に基づくメタ学習の問題である。
提案手法は,既存の手法よりも学習を加速し,性能を向上する伝達可能なコンポーネントを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-12-22T14:19:35Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Branch and Bound in Mixed Integer Linear Programming Problems: A Survey
of Techniques and Trends [7.432176855020725]
一般分岐および有界(B&B)アルゴリズムにおける4つの臨界成分に対する異なるアプローチとアルゴリズムについて検討する。
近年,B&Bアルゴリズムの高速化のために,このアルゴリズムに学習技術が導入されている。
論文 参考訳(メタデータ) (2021-11-05T10:18:21Z) - Algorithm Selection on a Meta Level [58.720142291102135]
本稿では,与えられたアルゴリズムセレクタの組み合わせに最適な方法を求めるメタアルゴリズム選択の問題を紹介する。
本稿では,メタアルゴリズム選択のための一般的な方法論フレームワークと,このフレームワークのインスタンス化として具体的な学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-20T11:23:21Z) - Reinforcement Learning as Iterative and Amortised Inference [62.997667081978825]
我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
論文 参考訳(メタデータ) (2020-06-13T16:10:03Z) - Offline Reinforcement Learning: Tutorial, Review, and Perspectives on
Open Problems [108.81683598693539]
オフラインの強化学習アルゴリズムは、巨大なデータセットを強力な意思決定エンジンにできるという、大きな約束を持っています。
我々は,これらの課題,特に近代的な深層強化学習手法の文脈において,読者にこれらの課題を理解することを目的としている。
論文 参考訳(メタデータ) (2020-05-04T17:00:15Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z) - Online Preselection with Context Information under the Plackett-Luce
Model [10.286111512725334]
本稿では,コンテキスト型マルチアームバンディット問題の拡張について考察する。
一つの代替品(アーム)を選択する代わりに、学習者は代替品のサブセットの形で事前選択する。
本稿では,よく知られたUPBアルゴリズムにインスパイアされたCPPLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-11T09:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。