論文の概要: Maximum Entropy Dueling Network Architecture
- arxiv url: http://arxiv.org/abs/2107.14457v1
- Date: Fri, 30 Jul 2021 06:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 17:19:22.886601
- Title: Maximum Entropy Dueling Network Architecture
- Title(参考訳): ネットワークアーキテクチャによる最大エントロピー
- Authors: Alireza Nadali and Mohammad Mehdi Ebadzadeh
- Abstract要約: 本稿では、Dueling Networksに基づくアーキテクチャの改善を提案し、このアーキテクチャには2つの別々の推定器があり、1つは状態値関数を近似し、もう1つは状態利点関数である。
最大エントロピーに基づくこの改善は、Atariドメインの元々のネットワークや他のバリューベースアーキテクチャと比較して、より良いポリシー評価を示す。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there have been many deep structures for Reinforcement
Learning, mainly for value function estimation and representations. These
methods achieved great success in Atari 2600 domain. In this paper, we propose
an improved architecture based upon Dueling Networks, in this architecture,
there are two separate estimators, one approximate the state value function and
the other, state advantage function. This improvement based on Maximum Entropy,
shows better policy evaluation compared to the original network and other
value-based architectures in Atari domain.
- Abstract(参考訳): 近年,価値関数推定と表現を中心に強化学習のための深層構造が数多く提案されている。
これらの手法はアタリ2600藩で大成功を収めた。
本稿では、Dueling Networksに基づくアーキテクチャの改善を提案し、このアーキテクチャには2つの別々の推定器があり、一方は状態値関数と他方は状態優位関数である。
最大エントロピーに基づくこの改善は、atariドメインにおける元のネットワークや他の価値ベースのアーキテクチャよりも優れたポリシー評価を示している。
関連論文リスト
- Partially Stochastic Infinitely Deep Bayesian Neural Networks [0.0]
無限深層ニューラルネットワークの枠組みに部分性を統合する新しいアーキテクチャ群を提案する。
完全性の利点を含む無限深度極限における部分性の利点を利用する。
ネットワーク設計における柔軟性を提供する、さまざまなアーキテクチャ構成を提示します。
論文 参考訳(メタデータ) (2024-02-05T20:15:19Z) - Make Deep Networks Shallow Again [6.647569337929869]
余剰接続の概念によってブレークスルーが達成されている。
残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。
言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。
論文 参考訳(メタデータ) (2023-09-15T14:18:21Z) - Hysteretic Behavior Simulation Based on Pyramid Neural
Network:Principle, Network Architecture, Case Study and Explanation [0.0]
ニューラルネットワークに基づく代理モデルでは、効率と精度のバランスをとる大きな可能性を示している。
単一レベルの特徴に基づく連続的な情報フローと予測は、ネットワーク性能に悪影響を及ぼす。
ここでは重み付けされたピラミッドニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-29T16:42:00Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Rethinking Architecture Selection in Differentiable NAS [74.61723678821049]
微分可能なニューラルアーキテクチャ探索は、その探索効率と簡易性において最も人気のあるNAS手法の1つである。
本稿では,各操作がスーパーネットに与える影響を直接測定する摂動に基づくアーキテクチャ選択を提案する。
提案手法により,DARTSの故障モードを大幅に緩和できることがわかった。
論文 参考訳(メタデータ) (2021-08-10T00:53:39Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Off-Policy Reinforcement Learning for Efficient and Effective GAN
Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。
鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。
我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文 参考訳(メタデータ) (2020-07-17T18:29:17Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z) - Stacked Boosters Network Architecture for Short Term Load Forecasting in
Buildings [0.0]
本稿では,建築エネルギー負荷の短期的負荷予測のための新しいディープラーニングアーキテクチャを提案する。
このアーキテクチャは、単純なベースラーナーと、単一のディープニューラルネットワークとしてモデル化された複数のブースティングシステムに基づいている。
このアーキテクチャは、フィンランドのオフィスビルのエネルギーデータを用いて、短期的な負荷予測タスクで評価される。
論文 参考訳(メタデータ) (2020-01-23T08:35:36Z) - Residual Attention Net for Superior Cross-Domain Time Sequence Modeling [0.0]
本稿では新しいアーキテクチャのコンセプト実証として機能し、RANはモデルにシーケンスパターンのより高レベルな理解を提供することを目的としている。
その結果,35の最先端結果が得られたが,10の結果が現在の最先端結果と一致し,さらなるモデル微調整は行われなかった。
論文 参考訳(メタデータ) (2020-01-13T06:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。