論文の概要: When Are RL Hyperparameters Benign? A Study in Offline Goal-Conditioned RL
- arxiv url: http://arxiv.org/abs/2602.05459v1
- Date: Thu, 05 Feb 2026 09:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.854584
- Title: When Are RL Hyperparameters Benign? A Study in Offline Goal-Conditioned RL
- Title(参考訳): RLハイパーパラメータはいつ変動するか : オフラインゴールコンディションRLの検討
- Authors: Jan Malte Töpperwien, Aditya Mohan, Marius Lindauer,
- Abstract要約: オフラインDeep Reinforcement Learning(RL)におけるハイパーパラメータ構成の変化に対するロバストさを観察する。
トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然ではなく、ブートストラップのダイナミクスによって増幅される。
これらの結果は、トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然ではなく、ブートストラップのダイナミクスによって増幅されることを示唆している。
- 参考スコア(独自算出の注目度): 9.430246534202857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter sensitivity in Deep Reinforcement Learning (RL) is often accepted as unavoidable. However, it remains unclear whether it is intrinsic to the RL problem or exacerbated by specific training mechanisms. We investigate this question in offline goal-conditioned RL, where data distributions are fixed, and non-stationarity can be explicitly controlled via scheduled shifts in data quality. Additionally, we study varying data qualities under both stationary and non-stationary regimes, and cover two representative algorithms: HIQL (bootstrapped TD-learning) and QRL (quasimetric representation learning). Overall, we observe substantially greater robustness to changes in hyperparameter configurations than commonly reported for online RL, even under controlled non-stationarity. Once modest expert data is present ($\approx$ 20\%), QRL maintains broad, stable near-optimal regions, while HIQL exhibits sharp optima that drift significantly across training phases. To explain this divergence, we introduce an inter-goal gradient alignment diagnostic. We find that bootstrapped objectives exhibit stronger destructive gradient interference, which coincides directly with hyperparameter sensitivity. These results suggest that high sensitivity to changes in hyperparameter configurations during training is not inevitable in RL, but is amplified by the dynamics of bootstrapping, offering a pathway toward more robust algorithmic objective design.
- Abstract(参考訳): 深層強化学習(RL)におけるハイパーパラメータ感度は、しばしば避けられないものとして受け入れられる。
しかし、RL問題に固有のものなのか、特定のトレーニングメカニズムによって悪化しているものなのかは、まだ不明である。
オフラインのゴール条件付きRLでは、データ分散が固定され、非定常性はデータ品質の定期的なシフトによって明示的に制御できる。
さらに、定常型と非定常型の両方で様々なデータ品質を研究し、HIQL(bootstrapped TD-learning)とQRL(quasimetric representation learning)の2つの代表的なアルゴリズムをカバーする。
全体としては、制御された非定常条件下であっても、オンラインRLにおいて一般的に報告されるよりも、ハイパーパラメータ構成の変化に対するロバスト性は著しく高い。
ひとたび控えめな専門家データ($20\%)が存在すると、QRLは広い、安定した準最適領域を維持します。
この相違を説明するために、ゴール間勾配アライメント診断を導入する。
自己進行対象物はより強い破壊的勾配干渉を示し、これはハイパーパラメータの感度と直接一致している。
これらの結果は、トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然的ではなく、ブートストラップのダイナミクスによって増幅され、より堅牢なアルゴリズム的目的設計への道筋を提供することを示唆している。
関連論文リスト
- Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - Hyperparameters in Contextual RL are Highly Situational [16.328866317851183]
強化学習(Reinforcement Learning, RL)はゲームやシミュレーションにおいて顕著な成果を上げているが, 実世界の応用は環境条件の変化による不安定さに悩まされている。
我々は,HPO法で検出されるハイパーパラメータが問題にのみ依存するだけでなく,状態が環境力学をどの程度うまく記述しているかにも依存していることを示す。
論文 参考訳(メタデータ) (2022-12-21T09:38:18Z) - No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL [28.31529154045046]
オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
論文 参考訳(メタデータ) (2022-05-18T04:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。