論文の概要: The Geometry of Nonlinear Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.01432v1
- Date: Mon, 01 Sep 2025 12:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.693627
- Title: The Geometry of Nonlinear Reinforcement Learning
- Title(参考訳): 非線形強化学習の幾何学
- Authors: Nikola Milosevic, Nico Scherf,
- Abstract要約: 強化学習(RL)における本質的・安全な探索・モチベーションの逆行は、しばしば別個の目的として研究される。
本稿では,環境における達成可能な長期的行動の空間における凸最適化単一問題の例として,これらの目標を一般化する統一フレームワークを提案する。
この視点が堅牢性、安全性、探索、多様性の目標をどのように捉えているかを説明し、幾何学と深い堅牢性のインターフェースにおけるオープンな課題を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward maximization, safe exploration, and intrinsic motivation are often studied as separate objectives in reinforcement learning (RL). We present a unified geometric framework, that views these goals as instances of a single optimization problem on the space of achievable long-term behavior in an environment. Within this framework, classical methods such as policy mirror descent, natural policy gradient, and trust-region algorithms naturally generalize to nonlinear utilities and convex constraints. We illustrate how this perspective captures robustness, safety, exploration, and diversity objectives, and outline open challenges at the interface of geometry and deep RL.
- Abstract(参考訳): 回帰最大化、安全な探索、本質的な動機付けは、強化学習(RL)において別々の目的として研究されることが多い。
本稿では,これらの目標を,環境における達成可能な長期的行動の空間上の単一最適化問題の事例とみなす,統一的な幾何学的枠組みを提案する。
この枠組みの中では、ポリシーミラー降下、自然ポリシー勾配、信頼領域アルゴリズムといった古典的な手法が自然に非線形ユーティリティや凸制約に一般化される。
この視点が堅牢性、安全性、探索、多様性の目標をどのように捉えているかを説明し、幾何学と深部RLのインターフェースにおけるオープンな課題を概説する。
関連論文リスト
- Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies [19.781089904199682]
鏡面降下と自然政策勾配を結びつけることで,新たな分析,保証,アルゴリズム的洞察がもたらされることを示す。
また、鏡面降下と自然政策勾配の結合が、オフラインRLと模倣学習の驚くべき統合につながることを示す。
論文 参考訳(メタデータ) (2026-02-27T08:51:57Z) - Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning [12.143238548217607]
非対称な距離を学習し、それを再利用する構成的枠組みである射影準距離計画(ProQ)を導入する。
メカニカルラーニング、キーポイントカバレッジ、ゴール条件制御を統一することにより、我々のアプローチは意味のあるサブゴールを生成し、長期目標達成を強力に推進する。
論文 参考訳(メタデータ) (2025-06-23T17:07:20Z) - GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z) - Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning [4.8951183832371]
逆強化学習(IRL)は、観察された専門家の行動から基礎となる報酬関数を推論することを目的としている。
現在の手法は高次元問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(OT)理論を利用する。
論文 参考訳(メタデータ) (2023-10-18T15:42:53Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。