論文の概要: Average-reward model-free reinforcement learning: a systematic review
and literature mapping
- arxiv url: http://arxiv.org/abs/2010.08920v2
- Date: Tue, 3 Aug 2021 11:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 03:58:33.605968
- Title: Average-reward model-free reinforcement learning: a systematic review
and literature mapping
- Title(参考訳): 平均回帰モデルなし強化学習 : 体系的レビューと文献マッピング
- Authors: Vektor Dewanto, George Dunn, Ali Eshragh, Marcus Gallagher, Fred
Roosta
- Abstract要約: 無限地平線設定における平均報酬最適性基準を利用したモデルフリー強化学習について検討する。
マハデヴァンによる単独調査 (1996a) に触発され、この領域における研究の見直しを行い、政策定式化と関数近似法をカバーするよう拡張する。
- 参考スコア(独自算出の注目度): 8.422438101821225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is important part of artificial intelligence. In this
paper, we review model-free reinforcement learning that utilizes the average
reward optimality criterion in the infinite horizon setting. Motivated by the
solo survey by Mahadevan (1996a), we provide an updated review of work in this
area and extend it to cover policy-iteration and function approximation methods
(in addition to the value-iteration and tabular counterparts). We present a
comprehensive literature mapping. We also identify and discuss opportunities
for future work.
- Abstract(参考訳): 強化学習は人工知能の重要な部分である。
本稿では,無限地平線設定における平均報酬最適性基準を用いたモデルフリー強化学習について検討する。
マハデヴァンによる単独調査 (1996a) に触発され、この領域での研究の見直しを行い、(価値イテレーションと表計算に加えて)ポリシーイテレーションと関数近似の手法をカバーするように拡張する。
総合的な文献マッピングを提案する。
我々はまた、将来の仕事の機会を特定し、議論する。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Using Machine Learning and Natural Language Processing Techniques to
Analyze and Support Moderation of Student Book Discussions [0.0]
IMapBookプロジェクトは、小学生のリテラシー向上と理解能力向上を目的として、インタラクティブな電子書籍を提示し、中途半端な本議論に参加することを目的としている。
本研究の目的は、メッセージ分類に対する機械学習ベースのアプローチを開発し、介入の必要性を議論モデレーターに自動的に通知し、進行中の議論に関する他の有用な情報を収集することである。
論文 参考訳(メタデータ) (2020-11-23T20:33:09Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文 参考訳(メタデータ) (2020-05-30T22:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。