Fugu-MT 論文翻訳(概要): Generalizing soft actor-critic algorithms to discrete action spaces

論文の概要: Generalizing soft actor-critic algorithms to discrete action spaces

arxiv url: http://arxiv.org/abs/2407.11044v1
Date: Mon, 8 Jul 2024 03:20:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 12:09:54.869035
Title: Generalizing soft actor-critic algorithms to discrete action spaces
Title（参考訳）: ソフトアクター批判アルゴリズムの離散的行動空間への一般化
Authors: Le Zhang, Yong Gu, Xin Zhao, Yanshuo Zhang, Shu Zhao, Yifei Jin, Xinxin Wu,
Abstract要約: ATARIは、強化学習(RL)研究者が学習アルゴリズムの有効性をテストするために使用する一連のビデオゲームである。本稿では,ソフトアクター・クリティック(SAC)アルゴリズムの実用的な離散的変種を提案する。その結果、SAC-BBFは1.045から1.088までの最先端のインタークアタイル平均値(IQM)を改善した。
参考スコア（独自算出の注目度）: 11.52358184505975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: ATARI is a suite of video games used by reinforcement learning (RL) researchers to test the effectiveness of the learning algorithm. Receiving only the raw pixels and the game score, the agent learns to develop sophisticated strategies, even to the comparable level of a professional human games tester. Ideally, we also want an agent requiring very few interactions with the environment. Previous competitive model-free algorithms for the task use the valued-based Rainbow algorithm without any policy head. In this paper, we change it by proposing a practical discrete variant of the soft actor-critic (SAC) algorithm. The new variant enables off-policy learning using policy heads for discrete domains. By incorporating it into the advanced Rainbow variant, i.e., the ``bigger, better, faster'' (BBF), the resulting SAC-BBF improves the previous state-of-the-art interquartile mean (IQM) from 1.045 to 1.088, and it achieves these results using only replay ratio (RR) 2. By using lower RR 2, the training time of SAC-BBF is strictly one-third of the time required for BBF to achieve an IQM of 1.045 using RR 8. As a value of IQM greater than one indicates super-human performance, SAC-BBF is also the only model-free algorithm with a super-human level using only RR 2. The code is publicly available on GitHub at https://github.com/lezhang-thu/bigger-better-faster-SAC.
Abstract（参考訳）: ATARIは、強化学習(RL)研究者が学習アルゴリズムの有効性をテストするために使用する一連のビデオゲームである。生のピクセルとゲームスコアのみを受信すると、エージェントはプロの人間のゲームテスターと同等のレベルまで高度な戦略を開発することを学ぶ。理想的には、環境とのインタラクションをほとんど必要としないエージェントも必要とします。従来の競合モデルなしのアルゴリズムでは、ポリシーヘッドを使わずに、価値の高いRainbowアルゴリズムを使用している。本稿では,ソフトアクター・クリティック(SAC)アルゴリズムの実用的な離散的変種を提案する。この新しい変種は、個別のドメインに対するポリシーヘッドを使用して、非政治的な学習を可能にする。先進的なレインボー変種、すなわち ''bigger, better, faster' (BBF) に組み込むことで、結果としてSAC-BBFは1.045から1.088までの最先端のインタークアタイル平均値 (IQM) を改善し、リプレイ比 (RR) 2 のみを用いてこれらの結果を達成する。 SAC-BBFのトレーニング時間は、RR2を使用することで、BBFがRR8を用いて1.045のIQMを達成するのに要する時間の3分の1である。 1以上のIQMの値は超人的性能を示すため、SAC-BBFはRR2のみを用いた超人的レベルを持つ唯一のモデルフリーアルゴリズムである。コードはGitHubでhttps://github.com/lezhang-thu/bigger-better-faster-SACで公開されている。

関連論文リスト

IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic [52.44637913176449]
本稿では、模倣学習のためのSOARフレームワークを紹介する。これは、コストとポリシーの更新を交互に行うプリミティブデュアルスタイルのアルゴリズムで、専門家によるデモンストレーションからポリシーを学ぶアルゴリズムテンプレートである。いくつかの MuJoCo 環境では,f-IRL,ML-IRL,CSIL などのソフトアクタ批判に基づく模倣学習アルゴリズムの性能を一貫して向上することが示されている。
論文参考訳（メタデータ） (2025-02-27T08:03:37Z)
Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。 5600以上のトレーニング実行、FP、DO、CFRベースのアプローチは、一般的なポリシー勾配メソッドを上回りません。
論文参考訳（メタデータ） (2025-02-13T03:38:41Z)
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文参考訳（メタデータ） (2024-11-29T05:29:47Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文参考訳（メタデータ） (2022-09-21T03:01:36Z)
Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。 RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文参考訳（メタデータ） (2022-01-15T20:00:26Z)
B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。 B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文参考訳（メタデータ） (2021-11-04T17:32:06Z)
Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。 RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-05-15T16:08:45Z)
Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文参考訳（メタデータ） (2021-02-05T14:26:00Z)
Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。 2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文参考訳（メタデータ） (2020-08-16T03:02:49Z)
Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文参考訳（メタデータ） (2020-08-15T22:18:20Z)
Faster Game Solving via Predictive Blackwell Approachability: Connecting Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。 RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。 18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文参考訳（メタデータ） (2020-07-28T16:49:55Z)
A Game Theoretic Framework for Model Based Reinforcement Learning [39.45066100705418]
モデルベース強化学習(MBRL)は、最近、サンプル効率と非政治データを組み込む能力により、大きな関心を集めている。我々は,MBRLをゲームとして活用する新たなフレームワークを開発する。(1)学習モデルの下で報酬を最大化しようとするポリシープレイヤー,(2)ポリシープレイヤーが収集した実世界のデータに適合しようとするモデルプレイヤー。当社のフレームワークは一貫性があり,従来から重要であった勾配の明確な基盤を提供します。
論文参考訳（メタデータ） (2020-04-16T17:51:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。