論文の概要: Structuring Value Representations via Geometric Coherence in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2602.02978v1
- Date: Tue, 03 Feb 2026 01:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.177034
- Title: Structuring Value Representations via Geometric Coherence in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における幾何コヒーレンスによる値表現の構造化
- Authors: Zuyuan Zhang, Zeyu Fang, Tian Lan,
- Abstract要約: 提案するemphGCR-RL(Geometric Coherence Regularized Reinforcement Learning,Geometric Coherence Regularized Reinforcement Learning,Geometric Coherence Regularized Reinforcement Learning,Geometric Coherence Regularized Reinforcement Learning, 幾何コヒーレンス正規化強化学習)は,超精密化のシーケンスを演算する。
Q-learningとアクター-criticの2つの新しいアルゴリズムを開発し、これらの超精密化を効果的に実現した。
我々は, GCR-RLを様々なタスクで実証的に評価し, 高いベースライン上での試料効率と安定性能の大幅な向上を実証した。
- 参考スコア(独自算出の注目度): 9.312400001335659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric properties can be leveraged to stabilize and speed reinforcement learning. Existing examples include encoding symmetry structure, geometry-aware data augmentation, and enforcing structural restrictions. In this paper, we take a novel view of RL through the lens of order theory and recast value function estimates into learning a desired poset (partially ordered set). We propose \emph{GCR-RL} (Geometric Coherence Regularized Reinforcement Learning) that computes a sequence of super-poset refinements -- by refining posets in previous steps and learning additional order relationships from temporal difference signals -- thus ensuring geometric coherence across the sequence of posets underpinning the learned value functions. Two novel algorithms by Q-learning and by actor--critic are developed to efficiently realize these super-poset refinements. Their theoretical properties and convergence rates are analyzed. We empirically evaluate GCR-RL in a range of tasks and demonstrate significant improvements in sample efficiency and stable performance over strong baselines.
- Abstract(参考訳): 幾何特性は安定化と高速化学習に利用することができる。
既存の例としては、符号化対称性構造、幾何認識データ拡張、構造制限の実施などがある。
本稿では、順序理論のレンズを通してRLの新たなビューと、所望のポーズ(部分順序集合)を学習する再キャスト値関数を推定する。
従来のステップでポーズを精製し、時間差信号から追加の順序関係を学習することにより、学習された値関数を支えるポーズの列間の幾何的コヒーレンスを確保することで、一連のスーパーポジションの洗練を計算できる「emph{GCR-RL}」(幾何コヒーレンス正規化強化学習)を提案する。
Q-learningとアクター-criticの2つの新しいアルゴリズムを開発し、これらの超精密化を効果的に実現した。
それらの理論的性質と収束速度を解析する。
我々は, GCR-RLを様々なタスクで実証的に評価し, 高いベースライン上での試料効率と安定性能の大幅な向上を実証した。
関連論文リスト
- FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer [30.184978506988767]
我々は、フィッシャー情報幾何を通して異方性ニューロトロピックな幾何情報を含むFISMOを紹介する。
FISMOは、確立されたベースラインよりも優れた効率と最終性能を達成する。
論文 参考訳(メタデータ) (2026-01-29T14:05:04Z) - Continuous-time reinforcement learning for optimal switching over multiple regimes [5.045537244224327]
本稿では,複数局にわたる最適切換問題に対する連続時間強化学習(RL)について検討する。
ハミルトン・ヤコビ・ベルマン方程式の関連する系を適切に設定し、最適政策の特徴づけを与える。
マルティンゲールの特徴に基づく政策評価を呼び起こして、強化学習アルゴリズムを考案し、実装する。
論文 参考訳(メタデータ) (2025-12-04T11:48:07Z) - Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T13:56:14Z) - Random Sparse Lifts: Construction, Analysis and Convergence of finite sparse networks [17.487761710665968]
本稿では,パラメータの数が増えると,勾配流による学習が任意に低損失に達するような,ニューラルネットワークの大規模クラスを定義する枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T12:52:00Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。
我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文 参考訳(メタデータ) (2020-07-01T02:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。