論文の概要: An Invitation to Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.08365v2
- Date: Tue, 24 Sep 2024 12:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:16:50.156930
- Title: An Invitation to Deep Reinforcement Learning
- Title(参考訳): 深層強化学習への招待
- Authors: Bernhard Jaeger, Andreas Geiger,
- Abstract要約: ターゲット目標を最大化するためにディープニューラルネットワークをトレーニングすることが、マシンラーニングの成功の標準的なレシピになっています。
共通目的として、連合(IoU)、二言語評価(BLEU)スコア、報酬は教師付き学習では最適化できない。
強化学習(Reinforcement Learning, RL)は、未分化の目的を最大化するために、ディープニューラルネットワークを最適化するための有望な代替手段として登場した。
- 参考スコア(独自算出の注目度): 24.807012576054504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a deep neural network to maximize a target objective has become the standard recipe for successful machine learning over the last decade. These networks can be optimized with supervised learning, if the target objective is differentiable. For many interesting problems, this is however not the case. Common objectives like intersection over union (IoU), bilingual evaluation understudy (BLEU) score or rewards cannot be optimized with supervised learning. A common workaround is to define differentiable surrogate losses, leading to suboptimal solutions with respect to the actual objective. Reinforcement learning (RL) has emerged as a promising alternative for optimizing deep neural networks to maximize non-differentiable objectives in recent years. Examples include aligning large language models via human feedback, code generation, object detection or control problems. This makes RL techniques relevant to the larger machine learning audience. The subject is, however, time intensive to approach due to the large range of methods, as well as the often very theoretical presentation. In this introduction, we take an alternative approach, different from classic reinforcement learning textbooks. Rather than focusing on tabular problems, we introduce reinforcement learning as a generalization of supervised learning, which we first apply to non-differentiable objectives and later to temporal problems. Assuming only basic knowledge of supervised learning, the reader will be able to understand state-of-the-art deep RL algorithms like proximal policy optimization (PPO) after reading this tutorial.
- Abstract(参考訳): 目的を最大化するためにディープニューラルネットワークをトレーニングすることは、過去10年間で機械学習を成功させるための標準的なレシピとなった。
これらのネットワークは、対象目標が微分可能であれば、教師付き学習で最適化することができる。
多くの興味深い問題に対して、これはそうではない。
共通目的として、連合(IoU)、二言語評価(BLEU)スコア、報酬は教師付き学習では最適化できない。
一般的な回避策は、微分可能な代理損失を定義することである。
強化学習(Reinforcement Learning, RL)は、近年、ディープラーニングを最適化して、非微分可能な目的を最大化する、有望な代替手段として登場した。
例えば、人間のフィードバック、コード生成、オブジェクト検出、制御問題などを通じて、大きな言語モデルを整列させる。
これにより、より大きな機械学習オーディエンスにRLテクニックが関係する。
しかし、この主題は様々な方法としばしば非常に理論的な提示のためにアプローチするのに時間を要する。
本導入では,古典的な強化学習教科書とは異なる,代替的なアプローチを採っている。
表付き問題に焦点をあてるのではなく、教師あり学習の一般化として強化学習を導入する。
教師付き学習の基本知識のみを仮定すると、このチュートリアルを読んでから、近ポリシー最適化(PPO)のような最先端のRLアルゴリズムを理解することができる。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Modular Neural Network Approaches for Surgical Image Recognition [0.0]
本稿では,DCSS不安定性分類のためのモジュール型学習の異なるアーキテクチャを導入,評価する。
実験の結果,モジュール型学習は非モジュール型システムと比較して性能が向上することがわかった。
第2部では,肩関節鏡画像への自己訓練によるデータラベリングとセグメンテーションのアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-17T22:28:16Z) - Unsupervised Learning for Combinatorial Optimization Needs Meta-Learning [14.86600327306136]
最適化のための教師なし学習(CO)の一般的なフレームワークは、出力がCOの目的を直接最適化することで問題解決をもたらすニューラルネットワーク(NN)を訓練することである。
本研究では,COにおける教師なし学習の新たな目的について提案する。この学習の目的は,直接的な解決策を与えるのではなく,将来の問題インスタンスの優れた初期化を探すことである。
微調整前のモデルが与える初期解だけでも, 様々な評価条件下では, ベースラインを著しく上回る結果が得られます。
論文 参考訳(メタデータ) (2023-01-08T22:14:59Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - A Survey on Influence Maximization: From an ML-Based Combinatorial
Optimization [2.9882027965916413]
影響最大化(IM)は、モバイルネットワーク、ソーシャルコンピューティング、レコメンデーションシステムで広く用いられる古典的な最適化問題である。
主な課題は、IM問題のNP硬度と、影響力の広がりを推定する#P硬度である。
我々は,関連する背景知識,基本原則,共通手法,応用研究の要約に重点を置いている。
論文 参考訳(メタデータ) (2022-11-06T10:13:42Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。