論文の概要: Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.05546v1
- Date: Fri, 07 Mar 2025 16:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:39.225949
- Title: Impoola: The Power of Average Pooling for Image-Based Deep Reinforcement Learning
- Title(参考訳): Impoola: 画像に基づく深層強化学習のための平均プールの力
- Authors: Raphael Trumpp, Ansgar Schäfftlein, Mirco Theile, Marco Caccamo,
- Abstract要約: 本論文では,Impala-CNNにおける出力特徴マップのフラット化をグローバル平均プールに置き換えることにより,顕著な性能向上が期待できることを示す。
ネットワークの翻訳感度の低下がこの改善の中心となるかもしれない。
この結果から,ネットワークのスケーリングはモデルサイズを増大させるだけでなく,ネットワーク設計の効率化も重要な要因であることが示唆された。
- 参考スコア(独自算出の注目度): 1.2937020918620652
- License:
- Abstract: As image-based deep reinforcement learning tackles more challenging tasks, increasing model size has become an important factor in improving performance. Recent studies achieved this by focusing on the parameter efficiency of scaled networks, typically using Impala-CNN, a 15-layer ResNet-inspired network, as the image encoder. However, while Impala-CNN evidently outperforms older CNN architectures, potential advancements in network design for deep reinforcement learning-specific image encoders remain largely unexplored. We find that replacing the flattening of output feature maps in Impala-CNN with global average pooling leads to a notable performance improvement. This approach outperforms larger and more complex models in the Procgen Benchmark, particularly in terms of generalization. We call our proposed encoder model Impoola-CNN. A decrease in the network's translation sensitivity may be central to this improvement, as we observe the most significant gains in games without agent-centered observations. Our results demonstrate that network scaling is not just about increasing model size - efficient network design is also an essential factor.
- Abstract(参考訳): 画像に基づく深層強化学習がより困難なタスクに取り組むにつれ、モデルサイズの増加がパフォーマンス向上の重要な要因となっている。
近年の研究では、15層ResNetにインスパイアされたネットワークであるImpala-CNNをイメージエンコーダとして使用する大規模ネットワークのパラメータ効率に着目した。
しかし、Impala-CNNは明らかに古いCNNアーキテクチャよりも優れているが、深い強化学習固有の画像エンコーダのためのネットワーク設計の潜在的な進歩は、まだほとんど解明されていない。
Impala-CNNの出力特徴マップのフラット化をグローバル平均プールに置き換えることで、顕著な性能向上が期待できる。
このアプローチは、特に一般化の観点から、Procgen Benchmarkにおいてより大きく複雑なモデルよりも優れている。
提案するエンコーダモデルを Impoola-CNN と呼ぶ。
エージェント中心の観察を伴わないゲームにおいて,ネットワークの翻訳感度が低下することが,この改善の中心となる可能性がある。
この結果から,ネットワークのスケーリングはモデルサイズを増大させるだけでなく,ネットワーク設計の効率化も重要な要因であることが示唆された。
関連論文リスト
- VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis [8.10783983193165]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。
本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
論文 参考訳(メタデータ) (2024-12-24T05:27:11Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - Revisiting Image Deblurring with an Efficient ConvNet [24.703240497171503]
本稿では,大規模な有効受容場(ERF)を特徴とする軽量CNNネットワークを提案する。
我々の鍵となる設計はLaKDと呼ばれる効率的なCNNブロックであり、大きなカーネル深さの畳み込みと空間チャネルの混合構造を備えている。
パラメータが32%少なく、MACが39%少ないデフォーカス/モーションデブロアリングベンチマークデータセット上で、最先端のRestormer上で+0.17dB / +0.43dB PSNRを達成する。
論文 参考訳(メタデータ) (2023-02-04T20:42:46Z) - RDRN: Recursively Defined Residual Network for Image Super-Resolution [58.64907136562178]
深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像において顕著な性能を得た。
本稿では,注目ブロックを効率的に活用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:06:29Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Impact of Scaled Image on Robustness of Deep Neural Networks [0.0]
生画像のスケーリングはアウト・オブ・ディストリビューションデータを生成するため、ネットワークを騙すための敵攻撃の可能性がある。
本研究では,ImageNet Challengeデータセットのサブセットを複数でスケーリングすることで,Scaling-DistortionデータセットのImageNet-CSを提案する。
論文 参考訳(メタデータ) (2022-09-02T08:06:58Z) - Image Super-resolution with An Enhanced Group Convolutional Neural
Network [102.2483249598621]
学習能力の強いCNNは、超解像問題を解くために広く選択されている。
浅層構造を持つ超解像群CNN(ESRGCNN)を提案する。
ESRGCNNは、SISRの性能、複雑さ、実行速度、画質評価およびSISRの視覚効果の観点から、最先端技術を上回っていると報告されている。
論文 参考訳(メタデータ) (2022-05-29T00:34:25Z) - DDCNet: Deep Dilated Convolutional Neural Network for Dense Prediction [0.0]
受容場(ERF)とネットワーク内の空間的特徴の高分解能は、高分解能密度推定を提供することに不可欠である。
空間的特徴の解像度を高く保ちながら、より大きな受容場を提供できるネットワークアーキテクチャを設計するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-09T23:15:34Z) - AdderSR: Towards Energy Efficient Image Super-Resolution [127.61437479490047]
本稿では,加算器ニューラルネットワーク(AdderNet)を用いた単一画像超解問題について検討する。
畳み込みニューラルネットワークと比較して、AdderNetは加算を利用して出力特性を計算し、従来の乗算の膨大なエネルギー消費を回避する。
論文 参考訳(メタデータ) (2020-09-18T15:29:13Z) - Attentive Graph Neural Networks for Few-Shot Learning [74.01069516079379]
グラフニューラルネットワーク(GNN)は、数ショットの学習タスクを含む多くの困難なアプリケーションにおいて、優れたパフォーマンスを示している。
少数のサンプルからモデルを学習し、一般化する能力があるにもかかわらず、GNNは通常、モデルが深くなるにつれて、過度な過度な適合と過度なスムーシングに悩まされる。
本稿では,三重注意機構を組み込むことにより,これらの課題に対処するための新しい注意型GNNを提案する。
論文 参考訳(メタデータ) (2020-07-14T07:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。