論文の概要: Mobile Networks for Computer Go
- arxiv url: http://arxiv.org/abs/2008.10080v1
- Date: Sun, 23 Aug 2020 17:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 03:03:22.146033
- Title: Mobile Networks for Computer Go
- Title(参考訳): コンピュータ化のためのモバイルネットワーク
- Authors: Tristan Cazenave
- Abstract要約: 本稿では,教師あり学習を用いた囲碁ゲームにおけるモバイルネットワークの関心度を評価することを提案する。
パラメータ数を有するネットワークの精度,平均二乗誤差,ネットワークの効率,トレーニングされたネットワークの演奏速度,強度を評価する。
- 参考スコア(独自算出の注目度): 4.38602607138044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The architecture of the neural networks used in Deep Reinforcement Learning
programs such as Alpha Zero or Polygames has been shown to have a great impact
on the performances of the resulting playing engines. For example the use of
residual networks gave a 600 ELO increase in the strength of Alpha Go. This
paper proposes to evaluate the interest of Mobile Network for the game of Go
using supervised learning as well as the use of a policy head and a value head
different from the Alpha Zero heads. The accuracy of the policy, the mean
squared error of the value, the efficiency of the networks with the number of
parameters, the playing speed and strength of the trained networks are
evaluated.
- Abstract(参考訳): alpha zeroやpolygamesといった深層強化学習プログラムで使用されるニューラルネットワークのアーキテクチャは、結果として得られるプレイエンジンのパフォーマンスに大きな影響を与えることが示されている。
例えば、残留ネットワークの使用は、Alpha Goの強度を600 ELO増加させた。
本稿では、教師付き学習とポリシーヘッドとAlpha Zeroヘッドとは異なる値ヘッドの使用により、Goのゲームに対するモバイルネットワークの関心を評価することを提案する。
ポリシーの正確性、値の平均二乗誤差、パラメータ数によるネットワークの効率、トレーニングされたネットワークの演奏速度、強度を評価する。
関連論文リスト
- Self-training superconducting neuromorphic circuits using reinforcement learning rules [0.0]
本稿では,強化学習に基づく局所的重量更新規則の集合とその超伝導ハードウェアへの実装について述べる。
我々は1ナノ秒の学習時間を持つ小型ニューラルネットワークを実装した。
重みの調整は、回路がエラーをバックプロパゲートする必要性をなくすグローバルな強化信号に基づいている。
論文 参考訳(メタデータ) (2024-04-29T15:09:00Z) - In value-based deep reinforcement learning, a pruned network is a good network [13.76250180047913]
段階的等級プルーニングにより,パラメータの有効性を最大化できることを示す。
この結果、従来のネットワークよりも劇的なパフォーマンス向上をもたらすネットワークが生まれる。
論文 参考訳(メタデータ) (2024-02-19T19:34:07Z) - Graph Neural Networks for Decentralized Multi-Agent Perimeter Defense [111.9039128130633]
我々は,防御者の地域認識とコミュニケーショングラフから行動へのマッピングを学習する模倣学習フレームワークを開発した。
学習ネットワークの性能を実証するために、異なるチームサイズと構成のシナリオで周辺防衛ゲームを実行します。
論文 参考訳(メタデータ) (2023-01-23T19:35:59Z) - Multi-agent Reinforcement Learning with Graph Q-Networks for Antenna
Tuning [60.94661435297309]
モバイルネットワークの規模は、手作業による介入や手作業による戦略を使ってアンテナパラメータの最適化を困難にしている。
本研究では,モバイルネットワーク構成をグローバルに最適化するマルチエージェント強化学習アルゴリズムを提案する。
シミュレーション環境におけるアンテナ傾き調整問題とジョイント傾き・電力制御問題に対するアルゴリズムの性能を実証的に示す。
論文 参考訳(メタデータ) (2023-01-20T17:06:34Z) - Backdoor Attack Detection in Computer Vision by Applying Matrix
Factorization on the Weights of Deep Networks [6.44397009982949]
本稿では,事前訓練したDNNの重みから特徴を抽出するバックドア検出手法を提案する。
他の検出技術と比較して、これはトレーニングデータを必要としないなど、多くのメリットがある。
提案手法は, 競合するアルゴリズムよりも効率性が高く, より正確であり, 深層学習とAIの安全な適用を確実にするのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T20:20:18Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Learning Decentralized Strategies for a Perimeter Defense Game with
Graph Neural Networks [111.9039128130633]
グラフニューラルネットワークに基づく学習フレームワークを設計し、ディフェンダーのローカル認識と通信グラフからディフェンダーの行動へのマッピングを学習する。
提案するネットワークは,専門家の方針に近づき,より多くの侵入者を捕捉することで,他のベースラインアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-24T22:48:51Z) - Faster Deep Reinforcement Learning with Slower Online Network [90.34900072689618]
DQNとRainbowという2つの人気のあるディープ強化学習アルゴリズムに、オンラインネットワークをターゲットネットワークの近くに留まらせるインセンティブを与えるアップデートを与えました。
その結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-12-10T22:07:06Z) - Improving Model and Search for Computer Go [9.114710429587479]
Alpha Zeroに続くゲームにおけるDeep Reinforcement Learningの標準は、残余ネットワークを使用し、より良い結果を得るためにネットワークの深さを増やすことである。
本稿では,残余ネットワークの代替として移動ネットワークを改良し,その幅と深さに応じてネットワークの演奏強度を実験的に示すことを提案する。
論文 参考訳(メタデータ) (2021-02-06T01:20:17Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Cooperative Initialization based Deep Neural Network Training [35.14235994478142]
本手法では,ネットワークのトレーニング中に,全ての重みパラメータの更新に複数のアクティベーション関数を用いる。
提案手法は,様々なベースラインに優れ,同時に分類や検出など,さまざまなタスクに対して優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-01-05T14:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。