Fugu-MT 論文翻訳(概要): Average-reward model-free reinforcement learning: a systematic review and literature mapping

論文の概要: Average-reward model-free reinforcement learning: a systematic review and literature mapping

arxiv url: http://arxiv.org/abs/2010.08920v2
Date: Tue, 3 Aug 2021 11:20:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 03:58:33.605968
Title: Average-reward model-free reinforcement learning: a systematic review and literature mapping
Title（参考訳）: 平均回帰モデルなし強化学習 : 体系的レビューと文献マッピング
Authors: Vektor Dewanto, George Dunn, Ali Eshragh, Marcus Gallagher, Fred Roosta
Abstract要約: 無限地平線設定における平均報酬最適性基準を利用したモデルフリー強化学習について検討する。マハデヴァンによる単独調査 (1996a) に触発され、この領域における研究の見直しを行い、政策定式化と関数近似法をカバーするよう拡張する。
参考スコア（独自算出の注目度）: 8.422438101821225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning is important part of artificial intelligence. In this paper, we review model-free reinforcement learning that utilizes the average reward optimality criterion in the infinite horizon setting. Motivated by the solo survey by Mahadevan (1996a), we provide an updated review of work in this area and extend it to cover policy-iteration and function approximation methods (in addition to the value-iteration and tabular counterparts). We present a comprehensive literature mapping. We also identify and discuss opportunities for future work.
Abstract（参考訳）: 強化学習は人工知能の重要な部分である。本稿では,無限地平線設定における平均報酬最適性基準を用いたモデルフリー強化学習について検討する。マハデヴァンによる単独調査 (1996a) に触発され、この領域での研究の見直しを行い、(価値イテレーションと表計算に加えて)ポリシーイテレーションと関数近似の手法をカバーするように拡張する。総合的な文献マッピングを提案する。我々はまた、将来の仕事の機会を特定し、議論する。

関連論文リスト

SoK: Machine Unlearning for Large Language Models [14.88062383081161]
大規模言語モデル(LLM)アンラーニングは機械学習において重要なトピックとなっている。未学習の意図に基づく新しい分類法を提案する。
論文参考訳（メタデータ） (2025-06-10T20:30:39Z)
Automated Capability Evaluation of Foundation Models [0.0]
Active Learning for Capability Evaluation (ACE)は、基盤モデルのスケーラブルで自動化された、きめ細かい評価のための新しいフレームワークである。カバレッジと効率を最大化するために、ACEは被写体モデルの性能を潜在意味空間上の機能関数としてモデル化する。この適応評価戦略は、静的ベンチマークが見逃す可能性のある強度、弱点、障害モードのコスト効率の良い発見を可能にする。
論文参考訳（メタデータ） (2025-05-22T19:09:57Z)
A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models [36.601209595620446]
本研究では,大規模言語モデル(LLM)の文脈における機械学習手法について検討する。 LLMのアンラーニングは、LLMから望ましくないデータの影響を取り除くための原則的なアプローチを提供する。研究の関心が高まりつつあるにもかかわらず、既存の研究を体系的に整理し、重要な洞察を蒸留する総合的な調査は行われていない。
論文参考訳（メタデータ） (2025-02-22T12:46:14Z)
Efficient fine-tuning methodology of text embedding models for information retrieval: contrastive learning penalty (clp) [0.0]
本研究では,事前学習したテキスト埋め込みモデルの情報検索性能を向上させるために,効率的な微調整手法を提案する。提案手法は,文書検索タスクにおける既存手法よりも大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-12-23T07:55:22Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文参考訳（メタデータ） (2024-08-14T16:58:48Z)
Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。我々は,教師モデルとしてPythia-2.8Bから出発する。我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文参考訳（メタデータ） (2024-03-20T17:42:08Z)
Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文参考訳（メタデータ） (2023-09-30T02:25:18Z)
Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文参考訳（メタデータ） (2023-01-09T10:33:14Z)
Deep Learning Schema-based Event Extraction: Literature Review and Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文参考訳（メタデータ） (2021-07-05T16:32:45Z)
Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文参考訳（メタデータ） (2021-06-08T14:12:36Z)
Using Machine Learning and Natural Language Processing Techniques to Analyze and Support Moderation of Student Book Discussions [0.0]
IMapBookプロジェクトは、小学生のリテラシー向上と理解能力向上を目的として、インタラクティブな電子書籍を提示し、中途半端な本議論に参加することを目的としている。本研究の目的は、メッセージ分類に対する機械学習ベースのアプローチを開発し、介入の必要性を議論モデレーターに自動的に通知し、進行中の議論に関する他の有用な情報を収集することである。
論文参考訳（メタデータ） (2020-11-23T20:33:09Z)
Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-15T16:41:00Z)
Linguistic Features for Readability Assessment [0.0]
言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
論文参考訳（メタデータ） (2020-05-30T22:14:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。