論文の概要: Good Actors can come in Smaller Sizes: A Case Study on the Value of
Actor-Critic Asymmetry
- arxiv url: http://arxiv.org/abs/2102.11893v1
- Date: Tue, 23 Feb 2021 19:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:25:15.112107
- Title: Good Actors can come in Smaller Sizes: A Case Study on the Value of
Actor-Critic Asymmetry
- Title(参考訳): より小さいサイズで良い俳優が現れる:アクター・クリティカル非対称性の値に関するケーススタディ
- Authors: Siddharth Mysore, Bassel Mabsout, Renato Mancuso, Kate Saenko
- Abstract要約: 本ケーススタディでは,アクタと批評家のアーキテクチャを独立して考える場合,ネットワークサイズのパフォーマンスへの影響について検討する。
アーキテクチャ対称性の仮定を緩和することにより、小さなアクターが対称対称性と同等のポリシー性能を達成することが可能となる。
- 参考スコア(独自算出の注目度): 47.312768123967025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actors and critics in actor-critic reinforcement learning algorithms are
functionally separate, yet they often use the same network architectures. This
case study explores the performance impact of network sizes when considering
actor and critic architectures independently. By relaxing the assumption of
architectural symmetry, it is often possible for smaller actors to achieve
comparable policy performance to their symmetric counterparts. Our experiments
show up to 97% reduction in the number of network weights with an average
reduction of 64% over multiple algorithms on multiple tasks. Given the
practical benefits of reducing actor complexity, we believe configurations of
actors and critics are aspects of actor-critic design that deserve to be
considered independently.
- Abstract(参考訳): アクター批判強化学習アルゴリズムのアクターや批評家は機能的に分離されているが、同じネットワークアーキテクチャを使うことが多い。
本ケーススタディでは,アクタと批評家のアーキテクチャを独立して考える場合,ネットワークサイズのパフォーマンスへの影響について検討する。
アーキテクチャ対称性の仮定を緩和することにより、小さなアクターが対称対称性と同等のポリシー性能を達成することが可能となる。
私たちの実験では、ネットワークウェイト数を最大97%削減し、複数のタスクで複数のアルゴリズムを平均64%削減しました。
アクタの複雑さを減らす実用的な利点を考えると、アクタと批評家の構成は独立して考慮すべきアクタ批判的な設計の側面であると考えています。
関連論文リスト
- SARC: Soft Actor Retrospective Critic [14.775519703997478]
SARC(Soft Actor Retrospective Critic)は、SAC批評家の損失を別の損失項で増大させるアクター批判アルゴリズムである。
SARCはベンチマーク環境でのSACよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2023-06-28T18:50:18Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework [2.6477113498726244]
深層強化学習のための新しい枠組みであるアクター・ディレクタ・クリティカルを提案する。
使用した2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
アクター・ディレクタ・クリティック・フレームワークの性能検証と改良された2重推定器法をTD3アルゴリズムに適用した。
論文 参考訳(メタデータ) (2023-01-10T10:21:32Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Analysis of a Target-Based Actor-Critic Algorithm with Linear Function
Approximation [2.1592777170316366]
ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において頑強な経験的成功を示している。
割引報酬設定において線形関数近似を用いたオンラインターゲットベースアクター批判の最初の理論的解析を行うことにより、このギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-06-14T14:59:05Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。