論文の概要: Reinforcement Learning Textbook
- arxiv url: http://arxiv.org/abs/2201.09746v1
- Date: Wed, 19 Jan 2022 15:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-30 11:23:47.875041
- Title: Reinforcement Learning Textbook
- Title(参考訳): 強化学習教科書
- Authors: Sergey Ivanov
- Abstract要約: この本は、ゲームAIからロボティクスに至るまで、多くの領域で画期的な成果を収めた、現代的な深層強化学習アルゴリズムの背景にある原則を説明している。
すべての必要理論は統一表記法を用いて説明され、異なるタイプのアルゴリズムの違いとそれらが現在のように構築されている理由を強調している。
- 参考スコア(独自算出の注目度): 1.6244541005112743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This textbook covers principles behind main modern deep reinforcement
learning algorithms that achieved breakthrough results in many domains from
game AI to robotics. All required theory is explained with proofs using unified
notation and emphasize on the differences between different types of algorithms
and the reasons why they are constructed the way they are.
- Abstract(参考訳): この教科書は、ゲームaiからロボティクスまで、多くの領域でブレークスルーを達成した主要な現代的深層強化学習アルゴリズムの背後にある原則を扱っている。
要求される全ての理論は統一的表記法を用いた証明で説明され、異なる種類のアルゴリズムの違いとそれらがどのように構築されるのかを強調する。
関連論文リスト
- Topological Foundations of Reinforcement Learning [0.0]
本稿では,バナッハの不動点定理と強化学習アルゴリズムの収束の関連性について述べる。
距離空間、ノルム空間、バナッハ空間などの関連する概念をよりよく理解するために導入する。
我々は、強化学習アルゴリズムが収束する理由を示すために、バナッハ空間上の作用素の観点からベルマン方程式を記述する。
論文 参考訳(メタデータ) (2024-09-25T21:21:23Z) - Deep Learning and Geometric Deep Learning: an introduction for
mathematicians and physicists [0.0]
本稿では,Deep LearningとGeometric Deep Learningの新たな成功アルゴリズムの内部機能について論じる。
これらのアルゴリズムの主要な要素であるスコアと損失関数について検討し、モデルのトレーニングにおける主要なステップを説明します。
Kullback-Leibler分散、回帰、多層パーセプトロン、ユニバーサル近似理論について議論する。
論文 参考訳(メタデータ) (2023-05-09T16:50:36Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Learned Greedy Method (LGM): A Novel Neural Architecture for Sparse
Coding and Beyond [24.160276545294288]
同じ目的のために,欲求追従アルゴリズムの展開版を提案する。
Learned Greedy Method(LGM)のキーとなる特徴は、動的に展開された複数のレイヤに対応する能力である。
論文 参考訳(メタデータ) (2020-10-14T13:17:02Z) - Tighter Generalization Bounds for Iterative Differentially Private
Learning Algorithms [95.73230376153872]
本稿では,反復学習アルゴリズムにおける一般化とプライバシ保護の関係を2つのステップで検討する。
我々は、$(varepsilon, delta)$-differential privacyは、マルチデータベース学習アルゴリズムに縛られる平均的な一般化を意味することを証明している。
次に,ほとんどの学習アルゴリズムが共有する反復的な性質が,プライバシーの保護とさらなる一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2020-07-18T09:12:03Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - A Review on Generative Adversarial Networks: Algorithms, Theory, and
Applications [154.4832792036163]
GAN(Generative Adversarial Network)は近年ホットな研究トピックである。
GANは2014年から広く研究され、多くのアルゴリズムが提案されている。
本稿では,アルゴリズム,理論,応用の観点から,様々なGAN手法のレビューを行う。
論文 参考訳(メタデータ) (2020-01-20T01:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。