Fugu-MT 論文翻訳(概要): Measuring Progress in Deep Reinforcement Learning Sample Efficiency

論文の概要: Measuring Progress in Deep Reinforcement Learning Sample Efficiency

arxiv url: http://arxiv.org/abs/2102.04881v1
Date: Tue, 9 Feb 2021 15:27:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 14:49:57.822908
Title: Measuring Progress in Deep Reinforcement Learning Sample Efficiency
Title（参考訳）: 深層強化学習のサンプル効率測定の進歩
Authors: Florian E. Dorner
Abstract要約: 現在のベンチマークでは、安価で簡単に大量のサンプルを生成できる。実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。各種アルゴリズムが与えられた性能レベルに達するために必要なサンプル数を比較することで,Atariゲームにおけるサンプル効率と連続制御タスクの進捗状況について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sampled environment transitions are a critical input to deep reinforcement learning (DRL) algorithms. Current DRL benchmarks often allow for the cheap and easy generation of large amounts of samples such that perceived progress in DRL does not necessarily correspond to improved sample efficiency. As simulating real world processes is often prohibitively hard and collecting real world experience is costly, sample efficiency is an important indicator for economically relevant applications of DRL. We investigate progress in sample efficiency on Atari games and continuous control tasks by comparing the number of samples that a variety of algorithms need to reach a given performance level according to training curves in the corresponding publications. We find exponential progress in sample efficiency with estimated doubling times of around 10 to 18 months on Atari, 5 to 24 months on state-based continuous control and of around 4 to 9 months on pixel-based continuous control depending on the specific task and performance level.
Abstract（参考訳）: サンプル環境遷移は、深層強化学習(drl)アルゴリズムへの重要な入力である。現在のDRLベンチマークでは、DRLの進歩が必ずしも改良されたサンプル効率に対応しないような、安価で容易に大量のサンプルを生成できることが多い。実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。 atariゲームおよび連続制御タスクにおけるサンプル効率の進歩を,様々なアルゴリズムが所定のパフォーマンスレベルに達するために必要なサンプル数を,対応する出版物のトレーニング曲線に従って比較して検討する。アタリでは10～18ヶ月、状態ベースの連続制御では5～24ヶ月、特定のタスクとパフォーマンスレベルに応じてピクセルベースの連続制御では4～9ヶ月の推定倍率でサンプル効率が指数関数的に向上しています。

関連論文リスト

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。 ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2025-02-01T03:04:53Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
RecFlow: An Industrial Full Flow Recommendation Dataset [66.06445386541122]
産業レコメンデーションシステムは、商品をユーザに届ける際の効率性と効率のバランスをとるために、多段階パイプラインに依存している。オフラインRSベンチマークと実際のオンライン環境とのギャップを埋めるために設計された産業用フルフローレコメンデーションデータセットであるRecFlowを紹介します。我々のデータセットは、約9万項目にわたる42Kユーザからの38万のインタラクションで構成され、37日間にわたる9.3Mオンラインリクエストから収集された1.9Bステージサンプルと6ステージにまたがる。
論文参考訳（メタデータ） (2024-10-28T09:36:03Z)
MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。時間差分学習のためのモデル拡張データ(MAD-TD)は,少数の生成データを用いて高UTDトレーニングを安定化する。
論文参考訳（メタデータ） (2024-10-11T15:13:17Z)
SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。 ShiREは、評価対象環境の25～78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文参考訳（メタデータ） (2024-09-16T04:46:22Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。 CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文参考訳（メタデータ） (2024-07-10T16:04:08Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Data Sampling Affects the Complexity of Online SGD over Dependent Data [54.92366535993012]
本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
論文参考訳（メタデータ） (2022-03-31T07:48:30Z)
One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning [35.0157090322113]
大規模機械学習システムは、しばしばプロダクション環境からの膨大なデータで継続的に訓練される。ストリーミングデータの量は、リアルタイムのトレーニングサブシステムにとって重要な課題であり、アドホックサンプリングが標準のプラクティスである。我々は,これらの前方パスからインスタンス毎の情報量を一定に記録することを提案する。追加情報は、前方および後方のパスに参加するデータインスタンスの選択を測定可能に改善します。
論文参考訳（メタデータ） (2021-04-27T11:29:02Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)
Learning to Sample with Local and Global Contexts in Experience Replay Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2020-07-14T21:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。