Fugu-MT 論文翻訳(概要): IGN : Implicit Generative Networks

論文の概要: IGN : Implicit Generative Networks

arxiv url: http://arxiv.org/abs/2206.05860v1
Date: Mon, 13 Jun 2022 00:02:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 02:46:43.924258
Title: IGN : Implicit Generative Networks
Title（参考訳）: IGN : インシシブ生成ネットワーク
Authors: Haozheng Luo, Tianyi Wu, Feiyu Han, Zhijun Yan, Jianfen Zhang
Abstract要約: 我々は分布強化学習の最近の進歩を構築し、IQNに基づくモデルの最先端の分布変種を与える。 ALEにおける57のAtari 2600ゲームにおいて,ベースラインデータセットの性能向上を実証した。また,このアルゴリズムを用いて,アタリゲームにおけるリスクに敏感なポリシーの訓練性能を,ポリシの最適化と評価で示す。
参考スコア（独自算出の注目度）: 5.394800220750409
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this work, we build recent advances in distributional reinforcement learning to give a state-of-art distributional variant of the model based on the IQN. We achieve this by using the GAN model's generator and discriminator function with the quantile regression to approximate the full quantile value for the state-action return distribution. We demonstrate improved performance on our baseline dataset - 57 Atari 2600 games in the ALE. Also, we use our algorithm to show the state-of-art training performance of risk-sensitive policies in Atari games with the policy optimization and evaluation.
Abstract（参考訳）: 本研究では,分布強化学習の最近の進歩を生かして,iqnに基づくモデルに最先端の分布型を与える。我々は,ganモデル生成器と分位回帰を持つ判別器関数を用いて,状態-作用の戻り値分布に対する全分位値を近似する。ベースラインデータセット – 57 atari 2600 games in the ale – ではパフォーマンスが向上しています。また,このアルゴリズムを用いて,アタリゲームにおけるリスクに敏感なポリシーの訓練性能を,政策最適化と評価で示す。

関連論文リスト

Continuous Visual Autoregressive Generation via Score Maximization [69.67438563485887]
本稿では,ベクトル量子化なしで直接視覚的自己回帰生成を可能にする連続VARフレームワークを提案する。このフレームワークの中で必要なのは、厳密な適切なスコアを選択し、最適化のトレーニング目標として設定することだけです。
論文参考訳（メタデータ） (2025-05-12T17:58:14Z)
PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文参考訳（メタデータ） (2024-07-18T04:18:52Z)
SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文参考訳（メタデータ） (2023-11-30T03:05:14Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Class Balancing GAN with a Classifier in the Loop [58.29090045399214]
本稿では,GANを学習するための理論的動機付けクラスバランス正則化器を提案する。我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。
論文参考訳（メタデータ） (2021-06-17T11:41:30Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムであるこの方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文参考訳（メタデータ） (2020-07-28T18:30:23Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文参考訳（メタデータ） (2020-02-14T19:27:50Z)
Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。 SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文参考訳（メタデータ） (2020-01-08T17:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。