論文の概要: The Geometry of Nonlinear Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.01432v1
- Date: Mon, 01 Sep 2025 12:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.693627
- Title: The Geometry of Nonlinear Reinforcement Learning
- Title(参考訳): 非線形強化学習の幾何学
- Authors: Nikola Milosevic, Nico Scherf,
- Abstract要約: 強化学習(RL)における本質的・安全な探索・モチベーションの逆行は、しばしば別個の目的として研究される。
本稿では,環境における達成可能な長期的行動の空間における凸最適化単一問題の例として,これらの目標を一般化する統一フレームワークを提案する。
この視点が堅牢性、安全性、探索、多様性の目標をどのように捉えているかを説明し、幾何学と深い堅牢性のインターフェースにおけるオープンな課題を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward maximization, safe exploration, and intrinsic motivation are often studied as separate objectives in reinforcement learning (RL). We present a unified geometric framework, that views these goals as instances of a single optimization problem on the space of achievable long-term behavior in an environment. Within this framework, classical methods such as policy mirror descent, natural policy gradient, and trust-region algorithms naturally generalize to nonlinear utilities and convex constraints. We illustrate how this perspective captures robustness, safety, exploration, and diversity objectives, and outline open challenges at the interface of geometry and deep RL.
- Abstract(参考訳): 回帰最大化、安全な探索、本質的な動機付けは、強化学習(RL)において別々の目的として研究されることが多い。
本稿では,これらの目標を,環境における達成可能な長期的行動の空間上の単一最適化問題の事例とみなす,統一的な幾何学的枠組みを提案する。
この枠組みの中では、ポリシーミラー降下、自然ポリシー勾配、信頼領域アルゴリズムといった古典的な手法が自然に非線形ユーティリティや凸制約に一般化される。
この視点が堅牢性、安全性、探索、多様性の目標をどのように捉えているかを説明し、幾何学と深部RLのインターフェースにおけるオープンな課題を概説する。
関連論文リスト
- Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning [12.143238548217607]
非対称な距離を学習し、それを再利用する構成的枠組みである射影準距離計画(ProQ)を導入する。
メカニカルラーニング、キーポイントカバレッジ、ゴール条件制御を統一することにより、我々のアプローチは意味のあるサブゴールを生成し、長期目標達成を強力に推進する。
論文 参考訳(メタデータ) (2025-06-23T17:07:20Z) - GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。