論文の概要: Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies
- arxiv url: http://arxiv.org/abs/2508.03194v1
- Date: Tue, 05 Aug 2025 08:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.857681
- Title: Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies
- Title(参考訳): 意思決定のためのDRLのスケーリング:データ・ネットワーク・トレーニング予算戦略に関する調査
- Authors: Yi Ma, Hongyao Tang, Chenjun Xiao, Yaodong Yang, Wei Wei, Jianye Hao, Jiye Liang,
- Abstract要約: スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
- 参考スコア(独自算出の注目度): 66.83950068218033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the expansion of neural network models and training data has driven remarkable progress in deep learning, particularly in computer vision and natural language processing. This advancement is underpinned by the concept of Scaling Laws, which demonstrates that scaling model parameters and training data enhances learning performance. While these fields have witnessed breakthroughs, such as the development of large language models like GPT-4 and advanced vision models like Midjourney, the application of scaling laws in deep reinforcement learning (DRL) remains relatively unexplored. Despite its potential to improve performance, the integration of scaling laws into DRL for decision making has not been fully realized. This review addresses this gap by systematically analyzing scaling strategies in three dimensions: data, network, and training budget. In data scaling, we explore methods to optimize data efficiency through parallel sampling and data generation, examining the relationship between data volume and learning outcomes. For network scaling, we investigate architectural enhancements, including monolithic expansions, ensemble and MoE methods, and agent number scaling techniques, which collectively enhance model expressivity while posing unique computational challenges. Lastly, in training budget scaling, we evaluate the impact of distributed training, high replay ratios, large batch sizes, and auxiliary training on training efficiency and convergence. By synthesizing these strategies, this review not only highlights their synergistic roles in advancing DRL for decision making but also provides a roadmap for future research. We emphasize the importance of balancing scalability with computational efficiency and outline promising directions for leveraging scaling to unlock the full potential of DRL in various tasks such as robot control, autonomous driving and LLM training.
- Abstract(参考訳): 近年、ニューラルネットワークモデルとトレーニングデータの拡張は、ディープラーニング、特にコンピュータビジョンや自然言語処理において顕著な進歩をもたらしている。
この進歩は、モデルのパラメータのスケーリングとトレーニングデータによって学習のパフォーマンスが向上することを示すScaling Laws(スケーリング法則)の概念に支えられている。
これらの分野は、GPT-4のような大規模言語モデルやMidjourneyのような先進的なビジョンモデルの開発のようなブレークスルーを目撃してきたが、深層強化学習(DRL)におけるスケーリング法則の適用は、まだ明らかになっていない。
性能向上の可能性にもかかわらず、意思決定のためのDRLへのスケーリング法則の統合は、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
データスケーリングにおいて、並列サンプリングとデータ生成によるデータ効率の最適化方法を検討し、データボリュームと学習結果の関係について検討する。
ネットワークスケーリングでは,モノリシック拡張,アンサンブル法,MoE法,エージェント数スケーリング手法などのアーキテクチャ拡張について検討する。
最後に、トレーニング予算のスケーリングにおいて、分散トレーニング、高い再生率、大きなバッチサイズ、および補助トレーニングがトレーニング効率と収束に与える影響を評価する。
これらの戦略を合成することにより、このレビューはDRLの意思決定における相乗的役割だけでなく、将来の研究のロードマップも提示する。
我々は,ロボット制御や自律運転,LLMトレーニングなど,DRLの潜在能力を最大限に活用するために,スケーラビリティと計算効率のバランスをとることの重要性を強調した。
関連論文リスト
- Scaling Laws of Motion Forecasting and Planning -- A Technical Report [23.340801154900387]
本研究では,エンコーダ・デコーダ・オートレグレッシブ・トランスモデルの実証スケーリング法則について検討する。
モデルトレーニング損失とモデル評価指標との間には,強い相関関係がみられた。
我々は,エゴエージェントの性能向上のために,他のエージェントの一般的なログ化された運転データに対するトレーニングの有用性を短時間で検討した。
論文 参考訳(メタデータ) (2025-06-09T20:54:23Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Deep-and-Wide Learning: Enhancing Data-Driven Inference via Synergistic Learning of Inter- and Intra-Data Representations [8.013386998355966]
現在のディープニューラルネットワーク(DNN)モデルは、大量のデータと計算リソースの要求など、いくつかの課題に直面している。
本稿では,DWL(Deep-and-wide Learning)と呼ばれる新しい学習手法を導入する。
我々はDWLが最先端のDNNの精度を、限られた訓練データでかなりの差で上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T23:47:34Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A Review of Deep Reinforcement Learning in Serverless Computing:
Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。
DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。
分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文 参考訳(メタデータ) (2023-10-05T09:26:04Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。