論文の概要: Average-reward model-free reinforcement learning: a systematic review
and literature mapping
- arxiv url: http://arxiv.org/abs/2010.08920v2
- Date: Tue, 3 Aug 2021 11:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 03:58:33.605968
- Title: Average-reward model-free reinforcement learning: a systematic review
and literature mapping
- Title(参考訳): 平均回帰モデルなし強化学習 : 体系的レビューと文献マッピング
- Authors: Vektor Dewanto, George Dunn, Ali Eshragh, Marcus Gallagher, Fred
Roosta
- Abstract要約: 無限地平線設定における平均報酬最適性基準を利用したモデルフリー強化学習について検討する。
マハデヴァンによる単独調査 (1996a) に触発され、この領域における研究の見直しを行い、政策定式化と関数近似法をカバーするよう拡張する。
- 参考スコア(独自算出の注目度): 8.422438101821225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is important part of artificial intelligence. In this
paper, we review model-free reinforcement learning that utilizes the average
reward optimality criterion in the infinite horizon setting. Motivated by the
solo survey by Mahadevan (1996a), we provide an updated review of work in this
area and extend it to cover policy-iteration and function approximation methods
(in addition to the value-iteration and tabular counterparts). We present a
comprehensive literature mapping. We also identify and discuss opportunities
for future work.
- Abstract(参考訳): 強化学習は人工知能の重要な部分である。
本稿では,無限地平線設定における平均報酬最適性基準を用いたモデルフリー強化学習について検討する。
マハデヴァンによる単独調査 (1996a) に触発され、この領域での研究の見直しを行い、(価値イテレーションと表計算に加えて)ポリシーイテレーションと関数近似の手法をカバーするように拡張する。
総合的な文献マッピングを提案する。
我々はまた、将来の仕事の機会を特定し、議論する。
関連論文リスト
- Consciousness-Inspired Spatio-Temporal Abstractions for Better
Generalization in Reinforcement Learning [88.38772200150387]
Skipperは、タスク時間を利用して、新しい状況下でスキルを学ぶモデルベースの強化学習エージェントである。
与えられたものをより小さく、より管理しやすいサブタスクに自動的に一般化し、スパースな意思決定を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [10.004223172733209]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Using Machine Learning and Natural Language Processing Techniques to
Analyze and Support Moderation of Student Book Discussions [0.0]
IMapBookプロジェクトは、小学生のリテラシー向上と理解能力向上を目的として、インタラクティブな電子書籍を提示し、中途半端な本議論に参加することを目的としている。
本研究の目的は、メッセージ分類に対する機械学習ベースのアプローチを開発し、介入の必要性を議論モデレーターに自動的に通知し、進行中の議論に関する他の有用な情報を収集することである。
論文 参考訳(メタデータ) (2020-11-23T20:33:09Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。