論文の概要: Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments
- arxiv url: http://arxiv.org/abs/2512.00915v1
- Date: Sun, 30 Nov 2025 14:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.495142
- Title: Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments
- Title(参考訳): 対称性・ブレーキング環境における部分変分強化学習
- Authors: Junwoo Chang, Minwoo Park, Joohwan Seo, Roberto Horowitz, Jongmin Lee, Jongeun Choi,
- Abstract要約: グループ対称性は強化学習(RL)に強力な誘導バイアスを与える
グループ対称性は強化学習(RL)に強力な誘導バイアスを与える
- 参考スコア(独自算出の注目度): 10.122552307413711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group symmetries provide a powerful inductive bias for reinforcement learning (RL), enabling efficient generalization across symmetric states and actions via group-invariant Markov Decision Processes (MDPs). However, real-world environments almost never realize fully group-invariant MDPs; dynamics, actuation limits, and reward design usually break symmetries, often only locally. Under group-invariant Bellman backups for such cases, local symmetry-breaking introduces errors that propagate across the entire state-action space, resulting in global value estimation errors. To address this, we introduce Partially group-Invariant MDP (PI-MDP), which selectively applies group-invariant or standard Bellman backups depending on where symmetry holds. This framework mitigates error propagation from locally broken symmetries while maintaining the benefits of equivariance, thereby enhancing sample efficiency and generalizability. Building on this framework, we present practical RL algorithms -- Partially Equivariant (PE)-DQN for discrete control and PE-SAC for continuous control -- that combine the benefits of equivariance with robustness to symmetry-breaking. Experiments across Grid-World, locomotion, and manipulation benchmarks demonstrate that PE-DQN and PE-SAC significantly outperform baselines, highlighting the importance of selective symmetry exploitation for robust and sample-efficient RL.
- Abstract(参考訳): 群対称性は強化学習(RL)に強力な帰納バイアスを与え、群不変マルコフ決定過程(MDP)を介して対称状態と作用を効率的に一般化することができる。
しかしながら、実世界の環境は、完全にグループ不変のMDPを実現することはほとんどなく、動的、アクティベーション制限、報酬設計はたいてい、局所的にのみ対称性を損なう。
このような場合、グループ不変のベルマンバックアップの下で、局所対称性の破れは状態-作用空間全体に伝播する誤差を導入し、大域的な値推定誤差をもたらす。
この問題に対処するために, グループ不変あるいは標準ベルマンバックアップを選択的に適用する部分群不変 MDP (PI-MDP) を導入する。
このフレームワークは、等価性の利点を維持しつつ、局所的に壊れた対称性からの誤差伝播を緩和し、サンプル効率と一般化可能性を高める。
この枠組みに基づいて、離散制御のための実践的RLアルゴリズム(部分等変量(PE)-DQN)と連続制御のためのPE-SAC(PE-SAC)を提案する。
グリッドワールド, 移動, 操作ベンチマークによる実験の結果, PE-DQN と PE-SAC はベースラインを著しく上回り, 頑健でサンプル効率のよい RL に対する選択対称性の活用の重要性を強調した。
関連論文リスト
- Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T13:56:14Z) - Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-22T01:13:45Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Learning (Approximately) Equivariant Networks via Constrained Optimization [25.51476313302483]
等価ニューラルネットワークは、そのアーキテクチャを通して対称性を尊重するように設計されている。
実世界のデータは、ノイズ、構造的変動、測定バイアス、その他の対称性を破る効果のために、しばしば完全対称性から逸脱する。
適応制約等分散(ACE)は、柔軟で非等価なモデルから始まる制約付き最適化手法である。
論文 参考訳(メタデータ) (2025-05-19T18:08:09Z) - Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。
本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文 参考訳(メタデータ) (2025-04-04T16:10:18Z) - Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning [5.69473229553916]
本稿では,特定のニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。
等変アンサンブルと正則化がサンプル効率と性能にどのような影響を与えるかを示す。
論文 参考訳(メタデータ) (2024-03-19T16:01:25Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。