論文の概要: Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.17749v1
- Date: Fri, 23 May 2025 11:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.025425
- Title: Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning
- Title(参考訳): GAPを心に! ピクセルによる深層強化学習におけるスケールの課題
- Authors: Ghada Sokar, Pablo Samuel Castro,
- Abstract要約: エンコーダの出力とそれに続く高密度層との接続を,スケーリング能力を制限する主要な要因として同定する。
我々は,グローバル平均プーリングを,ボトルネックをターゲットとするシンプルかつ効果的な方法として提示し,それ以前のアプローチの複雑さを回避する。
- 参考スコア(独自算出の注目度): 20.101971938856153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling deep reinforcement learning in pixel-based environments presents a significant challenge, often resulting in diminished performance. While recent works have proposed algorithmic and architectural approaches to address this, the underlying cause of the performance drop remains unclear. In this paper, we identify the connection between the output of the encoder (a stack of convolutional layers) and the ensuing dense layers as the main underlying factor limiting scaling capabilities; we denote this connection as the bottleneck, and we demonstrate that previous approaches implicitly target this bottleneck. As a result of our analyses, we present global average pooling as a simple yet effective way of targeting the bottleneck, thereby avoiding the complexity of earlier approaches.
- Abstract(参考訳): ピクセルベースの環境での深層強化学習のスケーリングは、大きな課題を示し、しばしば性能が低下する。
最近の研究でこの問題に対処するためのアルゴリズムとアーキテクチャのアプローチが提案されているが、その根底にある性能低下の原因はいまだ不明である。
本稿では,エンコーダ(畳み込み層)の出力とそれに続く高密度層との接続を,スケーリング能力を制限する主要な要因として同定する。
分析の結果,グローバル平均プーリングは,ボトルネックを標的とした簡易かつ効果的な手法であり,従来の手法の複雑さを回避できることを示した。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Joint Learning for Scattered Point Cloud Understanding with Hierarchical Self-Distillation [34.26170741722835]
そこで本研究では,部分点雲を高速に補正し,同定するエンド・ツー・エンドアーキテクチャを提案する。
階層型自己蒸留(HSD)は任意の階層ベースのポイントクラウドメソッドに適用できる。
論文 参考訳(メタデータ) (2023-12-28T08:51:04Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Deep Augmentation: Dropout as Augmentation for Self-Supervised Learning [19.495587566796278]
Deep Augmentationは、ニューラルネットワークのターゲット層にドロップアウトまたはPCA変換を適用する方法である。
レイヤ間で均一にドロップアウトを適用することで、パフォーマンスが一貫して向上しないことを示す。
また, 停止段階の操作は, 拡張として効果的にドロップアウト機能を確保するために重要であることも示している。
論文 参考訳(メタデータ) (2023-03-25T19:03:57Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Deep hierarchical pooling design for cross-granularity action
recognition [14.696233190562936]
本稿では,行動認識における時間的粒度の異なる階層的アグリゲーション設計を提案する。
制約最小化問題の解法により,このネットワークにおける演算の組み合わせを学習する。
原則と基礎が整っただけでなく、提案された階層的なプーリングもビデオ長であり、動作のミスアライメントに耐性がある。
論文 参考訳(メタデータ) (2020-06-08T11:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。