論文の概要: Understanding and Improving Hyperbolic Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.14202v1
- Date: Tue, 16 Dec 2025 08:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.644968
- Title: Understanding and Improving Hyperbolic Deep Reinforcement Learning
- Title(参考訳): 双曲型深層強化学習の理解と改善
- Authors: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek,
- Abstract要約: 我々は,双曲型深層強化学習エージェントの成功と失敗を決定する重要な要因を同定する。
このエージェントは, (i) 回帰ではなくカテゴリー的価値損失による安定した批判的トレーニング, (ii) クリッピングから次元性の呪いを回避しながら有界ノルムを保証する機能正規化, (iii) より最適化にやさしいハイパーボリックネットワークレイヤの定式化を使用する,という3つのコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 41.48533616884863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .
- Abstract(参考訳): 強化学習(RL)エージェントの性能は,基礎となる特徴表現の品質に大きく依存する。
双曲的特徴空間は、複雑なRL環境に存在する階層構造や関係構造を自然に捉えるため、この目的に適している。
しかし、これらの空間を活用することは、RLの非定常性のために最適化の課題に直面するのが普通である。
本研究では, 双曲型深部RLエージェントのトレーニングの成功と失敗を決定する重要な要因を同定する。
双曲幾何学のポアンカレボールとハイパーボロイドモデルにおけるコア操作の勾配を解析することにより、大きなノルム埋め込みが勾配に基づくトレーニングを不安定にし、近位政策最適化(PPO)における信頼区間違反をもたらすことを示す。
これらの知見に基づいて、3つのコンポーネントから構成される新しい双曲型PPOエージェントであるHyper++を紹介します。
一 回帰ではなく、分類的価値損失による安定した批判的訓練
(二 クリッピングから次元の呪いを回避しつつ、有界ノルムを保障する特色
(iii)双曲型ネットワーク層のより最適化に親しみやすい定式化を用いる。
ProcGenの実験では、Hyper++は安定した学習を保証し、従来の双曲型エージェントより優れ、壁時計の時間を約30%短縮することを示した。
二重DQNを持つAtari-5では、Hyper++はユークリッドベースラインと双曲ベースラインを強く上回る。
コードをhttps://github.com/Probabilistic-and-Interactive-ML/hyper-rl でリリースします。
関連論文リスト
- SPEAR++: Scaling Gradient Inversion via Sparsely-Used Dictionary Learning [48.41770886055744]
Federated Learningは最近、現実世界のシナリオへのデプロイが増えている。
いわゆる勾配反転攻撃の導入は、プライバシー保護特性に挑戦している。
本稿では,ReLU活性化を伴う線形層の勾配の理論的解析に基づくSPEARを紹介する。
新たな攻撃であるSPEAR++は、DPノイズに対する堅牢性やFedAvgアグリゲーションなど、SPEARの望ましい特性をすべて保持しています。
論文 参考訳(メタデータ) (2025-10-28T09:06:19Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Hyperbolic Coarse-to-Fine Few-Shot Class-Incremental Learning [6.461974916262412]
この研究は、C2FSCIL(Coarse-To-Fine Few-Shot Class-Incremental Learning)タスクに焦点を当てている。
粗粒度」パラダイムをよりよく解釈するために,特徴抽出器を双曲空間に埋め込む手法を提案する。
C2FSCILベンチマーク実験により,提案手法は粗さと細かなクラス精度の両方を効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-09-23T01:12:21Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - HyPCV-Former: Hyperbolic Spatio-Temporal Transformer for 3D Point Cloud Video Anomaly Detection [1.475698751142657]
HyV-Formerは、複数の異常カテゴリにわたる最先端の異常検出を実現し、TIMoデータセットは7%改善され、DADデータセットは5.6%向上した。
論文 参考訳(メタデータ) (2025-08-01T09:50:20Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - Stabilizing Off-Policy Deep Reinforcement Learning from Pixels [9.998078491879145]
ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
論文 参考訳(メタデータ) (2022-07-03T08:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。