論文の概要: Critic Algorithms using Cooperative Networks
- arxiv url: http://arxiv.org/abs/2201.07839v1
- Date: Wed, 19 Jan 2022 19:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 03:57:22.392245
- Title: Critic Algorithms using Cooperative Networks
- Title(参考訳): 協調ネットワークを用いた批判アルゴリズム
- Authors: Debangshu Banerjee and Kavita Wagh
- Abstract要約: マルコフ決定過程における政策評価のためのアルゴリズムを提案する。
このアルゴリズムは、射影ベルマン誤差を追跡し、真の勾配に基づくアルゴリズムとして実装されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An algorithm is proposed for policy evaluation in Markov Decision Processes
which gives good empirical results with respect to convergence rates. The
algorithm tracks the Projected Bellman Error and is implemented as a true
gradient based algorithm. In this respect this algorithm differs from
TD($\lambda$) class of algorithms. This algorithm tracks the Projected Bellman
Algorithm and is therefore different from the class of residual algorithms.
Further the convergence of this algorithm is empirically much faster than GTD2
class of algorithms which aim at tracking the Projected Bellman Error. We
implemented proposed algorithm in DQN and DDPG framework and found that our
algorithm achieves comparable results in both of these experiments
- Abstract(参考訳): マルコフ決定過程において、収束率に関して良好な経験的結果を与える政策評価のためのアルゴリズムを提案する。
このアルゴリズムは、射影ベルマン誤差を追跡し、真の勾配に基づくアルゴリズムとして実装されている。
この点において、このアルゴリズムはTD($\lambda$)アルゴリズムのクラスとは異なる。
このアルゴリズムは、射影ベルマンアルゴリズムを追跡し、従って残留アルゴリズムのクラスとは異なる。
さらに、このアルゴリズムの収束は、予測されたベルマン誤差を追跡することを目的としたgtd2クラスのアルゴリズムよりもはるかに高速である。
提案アルゴリズムをDQNとDDPGフレームワークで実装し,両実験で同等の結果が得られた。
関連論文リスト
- On Universally Optimal Algorithms for A/B Testing [49.429419538826444]
ベルヌーイ報奨を伴う多腕バンディットにおける固定予算によるベストアーム識別の問題について検討する。
A/Bテスト問題としても知られる2つのアームの問題に対して,各アームを等しくサンプリングするアルゴリズムが存在しないことを証明した。
論文 参考訳(メタデータ) (2023-08-23T08:38:53Z) - Dual Algorithmic Reasoning [9.701208207491879]
本稿では,基礎となるアルゴリズム問題の双対性を利用してアルゴリズムを学習することを提案する。
アルゴリズム学習における最適化問題の2つの定義を同時に学習することで、より良い学習が可能になることを実証する。
次に、難易度の高い脳血管分類タスクにデプロイすることで、二元アルゴリズム推論の現実的な実用性を検証する。
論文 参考訳(メタデータ) (2023-02-09T08:46:23Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Quantum algorithms for anomaly detection using amplitude estimation [5.20363732303968]
密度推定に基づく異常検出アルゴリズム(ADDEアルゴリズム)は広く使われているアルゴリズムの1つである。
本稿では振幅推定に基づく新しい量子ADDEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-28T15:47:56Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Critical Analysis: Bat Algorithm based Investigation and Application on
Several Domains [1.1802674324027231]
このアルゴリズムのアイデアはコウモリのエコーロケーション能力から取られた。
バットアルゴリズムは、背景、特徴、制限の観点から詳細に与えられる。
論文 参考訳(メタデータ) (2021-01-18T19:25:12Z) - Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。
我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文 参考訳(メタデータ) (2020-08-29T14:58:26Z) - Optimal and Practical Algorithms for Smooth and Strongly Convex
Decentralized Optimization [21.555331273873175]
ネットワークのノードにまたがるスムーズな凸関数の和を分散化最小化する作業について検討する。
本稿では,この分散最適化問題に対する2つの新しいアルゴリズムを提案し,複雑性を保証する。
論文 参考訳(メタデータ) (2020-06-21T11:23:20Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。