論文の概要: On The Presence of Double-Descent in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06895v1
- Date: Mon, 10 Nov 2025 09:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.187694
- Title: On The Presence of Double-Descent in Deep Reinforcement Learning
- Title(参考訳): 深部強化学習におけるダブルディフレッシュの存在について
- Authors: Viktor Veselý, Aleksandar Todorov, Matthia Sabatelli,
- Abstract要約: 二重降下パラドックスは深部強化学習(DRL)の非定常領域においてほとんど探索されていない。
本稿では, DDがモデルフリーDRLに存在することを示す予備的証拠として, Actor-Critic フレームワークを用いて, 様々なモデルキャパシティを体系的に調査する。
これらの知見は、DDをDRLの因子として確立し、より汎用的で、転送可能で、堅牢なエージェントを設計するための情報ベースのメカニズムを提供する。
- 参考スコア(独自算出の注目度): 43.22339935902436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The double descent (DD) paradox, where over-parameterized models see generalization improve past the interpolation point, remains largely unexplored in the non-stationary domain of Deep Reinforcement Learning (DRL). We present preliminary evidence that DD exists in model-free DRL, investigating it systematically across varying model capacity using the Actor-Critic framework. We rely on an information-theoretic metric, Policy Entropy, to measure policy uncertainty throughout training. Preliminary results show a clear epoch-wise DD curve; the policy's entrance into the second descent region correlates with a sustained, significant reduction in Policy Entropy. This entropic decay suggests that over-parameterization acts as an implicit regularizer, guiding the policy towards robust, flatter minima in the loss landscape. These findings establish DD as a factor in DRL and provide an information-based mechanism for designing agents that are more general, transferable, and robust.
- Abstract(参考訳): 双対降下(DD)パラドックス(英語版)では、過度パラメータ化モデルでは補間点よりも一般化が向上するが、Deep Reinforcement Learning (DRL) の非定常領域では、ほとんど探索されていない。
Actor-Critic フレームワークを用いて, DD がモデルフリーDRL に存在することを示す予備的証拠を示す。
我々は、トレーニングを通して政策の不確実性を測定するために、情報理論の指標である政策エントロピーを頼りにしている。
第2降下地域への政策の参入は、政策エントロピーの持続的かつ顕著な減少と相関する。
このエントロピック崩壊は、過パラメータ化が暗黙の正則化として作用し、ロスランドスケープにおけるロバストで平坦なミニマへの政策を導くことを示唆している。
これらの知見は、DDをDRLの因子として確立し、より汎用的で、転送可能で、堅牢なエージェントを設計するための情報ベースのメカニズムを提供する。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Control-Augmented Autoregressive Diffusion for Data Assimilation [17.305296093966803]
本稿では,ARDMを軽量コントローラで拡張するアモールト化フレームワークを提案する。
我々はこの枠組みをカオス偏微分方程式(PDE)に対するデータ同化(DA)の文脈で評価する。
提案手法は,DA推論をオンザフライ修正による単一前方ロールアウトに還元し,推論中に高価な随伴計算や最適化を回避する。
論文 参考訳(メタデータ) (2025-10-08T04:37:32Z) - TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation [18.55356623615343]
オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。
既存のOPE法は高次元の長距離問題には有効ではない。
長軸OPEのデノナイズ拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:39:26Z) - datadriftR: An R Package for Concept Drift Detection in Predictive Models [0.0]
本稿では,コンセプトドリフトを検出するためのRパッケージであるドリフト器を紹介する。
ドリフト検出とドリフトの背後にある原因の理解を深めることのできるプロファイルドリフト検出(PDD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-15T20:59:49Z) - Analyzing Generalization in Policy Networks: A Case Study with the
Double-Integrator System [13.012569626941062]
本稿では、状態分割と呼ばれる新しい解析手法を用いて、性能劣化の原因を明らかにする。
状態空間の拡大は、飽和度を示すために活性化関数$tanh$を誘導し、状態分割境界を非線形から線形に変換することを示した。
論文 参考訳(メタデータ) (2023-12-16T15:06:29Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。