論文の概要: An Exploration of Deep Learning Methods in Hungry Geese
- arxiv url: http://arxiv.org/abs/2109.01954v1
- Date: Sun, 5 Sep 2021 00:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 07:29:50.396204
- Title: An Exploration of Deep Learning Methods in Hungry Geese
- Title(参考訳): 空腹ガチョウにおける深層学習法の探索
- Authors: Nikzad Khani and Matthew Kluska
- Abstract要約: ハングリー・ジーゼ(Hungry Geese)は、人気ゲームヘビのn-playerのバリエーションである。
本稿では,Deep Reinforcement Learning Value Methodsの現状について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hungry Geese is a n-player variation of the popular game snake. This paper
looks at state of the art Deep Reinforcement Learning Value Methods. The goal
of the paper is to aggregate research of value based methods and apply it as an
exercise to other environments. A vanilla Deep Q Network, a Double Q-network
and a Dueling Q-Network were all examined and tested with the Hungry Geese
environment. The best performing model was the vanilla Deep Q Network due to
its simple state representation and smaller network structure. Converging
towards an optimal policy was found to be difficult due to random geese
initialization and food generation. Therefore we show that Deep Q Networks may
not be the appropriate model for such a stochastic environment and lastly we
present improvements that can be made along with more suitable models for the
environment.
- Abstract(参考訳): ハングリー・ジーゼ(Hungry Geese)は、人気ゲームヘビのn-playerのバリエーションである。
本稿では,Deep Reinforcement Learning Value Methodsの現状について述べる。
本論文の目的は,価値に基づく手法の研究を集約し,他の環境に適用することである。
バニラディープqネットワーク、ダブルqネットワーク、デュエルqネットワークはいずれも、空腹のガチョウの環境で検討され、テストされた。
最も優れたモデルは、単純な状態表現とより小さなネットワーク構造のため、バニラディープqネットワークであった。
最適政策への収束は, ランダムガチョウの初期化と食物生成が原因で困難であることが判明した。
そこで,このような確率的環境に対して,ディープqネットワークが適切なモデルではない可能性を示し,さらに,より適切な環境モデルとともに実現可能な改良を提案する。
関連論文リスト
- B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Interpretability of an Interaction Network for identifying $H
\rightarrow b\bar{b}$ jets [4.553120911976256]
近年、ディープニューラルネットワークに基づくAIモデルは、これらのアプリケーションの多くで人気が高まっている。
我々は、高揚した$Hto bbarb$ jetを識別するために設計されたインタラクションネットワーク(IN)モデルを調べることで、AIモデルの解釈可能性を検討する。
さらに、INモデル内の隠れレイヤの活動を、ニューラルアクティベーションパターン(NAP)ダイアグラムとして記述する。
論文 参考訳(メタデータ) (2022-11-23T08:38:52Z) - Deep W-Networks: Solving Multi-Objective Optimisation Problems With Deep
Reinforcement Learning [2.65558931169264]
我々は、DQN(Deep Q-Networks)アプローチによって導入された進歩に基づいて、Wラーニングアルゴリズムを大規模状態空間に拡張する。
我々は,深海宝と多目的マウンテンカーという,広く受け入れられている2つの多目的RLベンチマークにおいて,Deep W-Networks (DWN) アプローチの有効性を評価した。
論文 参考訳(メタデータ) (2022-11-09T11:22:02Z) - Robust Boosting Forests with Richer Deep Feature Hierarchy [4.644923443649425]
本稿では,様々な対角防御手法に頑健な森林増生法を提案し,それを深層ニューラルネットワークの堅牢性を高めるために応用する。
各決定木を訓練するために,純粋ゲイン関数よりも誤判定が少ないことを考慮し,保守的で欲求的なトレードオフを提案する。
顔のランドマークデータを用いた保守的緑化促進林 (CGBF) は, 敵対的攻撃下での純粋な深層学習法よりも大幅に改善した。
論文 参考訳(メタデータ) (2022-10-29T00:40:17Z) - Learning to Weight Samples for Dynamic Early-exiting Networks [35.03752825893429]
早期退避は、ディープネットワークの推論効率を改善するための効果的なパラダイムである。
本研究は,各出口で異なるトレーニングサンプルの損失を重み付けするために,重み予測ネットワークを採用することを提案する。
提案する重み付け機構は,分類精度と推論効率のトレードオフを一貫して改善することを示す。
論文 参考訳(メタデータ) (2022-09-17T10:46:32Z) - Pathfinding in Random Partially Observable Environments with
Vision-Informed Deep Reinforcement Learning [1.332560004325655]
深層強化学習(Deep reinforcement learning)は、Atariのビデオゲームからストックトレーディングまで、さまざまな環境で問題を解決する技術である。
この方法は、深いニューラルネットワークモデルを利用して、目標に達するためのコストと報酬を組み込むことができる報酬関数を最大化することを目的として、所定の環境の観測に基づいて決定を行う。
この研究では、複数のディープQネットワーク(DQN)エージェントが、最小の移動時間で目標ゾーンに達することを目標として、部分的に観測可能な環境で運用するように訓練されている。
論文 参考訳(メタデータ) (2022-09-11T06:32:00Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - HYDRA: Pruning Adversarially Robust Neural Networks [58.061681100058316]
ディープラーニングは、敵対的攻撃に対する堅牢性の欠如と、大規模なニューラルネットワークサイズという、2つの大きな課題に直面している。
そこで本稿では,頑健なトレーニング目標を意識したプルーニング手法を提案し,トレーニング目標にプルーンへの接続を探索させる。
HYDRAと題する我々の手法は,最先端のベニグニグニグニグニグニとロバストな精度で圧縮されたネットワークを同時に実現できることを実証する。
論文 参考訳(メタデータ) (2020-02-24T19:54:53Z) - A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。
我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。
提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文 参考訳(メタデータ) (2020-01-15T20:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。