論文の概要: A Succinct Summary of Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.01379v1
- Date: Tue, 3 Jan 2023 22:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:02:57.762068
- Title: A Succinct Summary of Reinforcement Learning
- Title(参考訳): 強化学習の簡潔な要約
- Authors: Sanjeevan Ahilan
- Abstract要約: この文書は、単エージェント強化学習(RL)における多くの重要な結果の簡潔な要約である。
対象とする聴衆は、すでにRLに慣れており、この分野で重要なアイデアをレビュー、参照、あるいは思い出させようとしている人たちです。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This document is a concise summary of many key results in single-agent
reinforcement learning (RL). The intended audience are those who already have
some familiarity with RL and are looking to review, reference and/or remind
themselves of important ideas in the field.
- Abstract(参考訳): この文書は、単エージェント強化学習(RL)における多くの重要な結果の簡潔な要約である。
対象とする聴衆は、すでにRLに慣れており、この分野で重要なアイデアをレビュー、参照、あるいは思い出させようとしている人たちです。
関連論文リスト
- An Introduction to Reinforcement Learning: Fundamental Concepts and Practical Applications [3.1699526199304007]
強化学習(Reinforcement Learning, RL)は、人工知能(AI)の一分野であり、累積報酬を最大化するために環境と対話して意思決定を行うための訓練エージェントに焦点を当てている。
本稿では,その中核となる概念,方法論,最近の傾向,学習資源について概説する。
論文 参考訳(メタデータ) (2024-08-13T23:08:06Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Active Reinforcement Learning: Observing Rewards at a Cost [9.034315299202847]
アクティブ強化学習(英: Active reinforcement learning、ARL)は、エージェントがクエリコストを支払わない限り報酬を観察しない強化学習の変種である。
ARLの中心的な問題は、報酬情報の長期的な価値を定量化する方法である。
我々は,多腕バンディットおよび(タブラル)決定過程におけるARLに対するいくつかのアプローチを提案し,評価する。
論文 参考訳(メタデータ) (2020-11-13T01:01:13Z) - Massive Multi-Document Summarization of Product Reviews with Weak
Supervision [11.462916848094403]
製品レビュー要約は、MDS(Multi-Document Summarization)タスクの一種です。
レビューの小さなサンプルを要約すると、重要な情報が失われる可能性がある。
本稿では,標準的な要約アルゴリズムに基づいて,大量のレビューを要約するスキーマを提案する。
論文 参考訳(メタデータ) (2020-07-22T11:22:57Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。