論文の概要: Reinforcement Learning Using known Invariances
- arxiv url: http://arxiv.org/abs/2511.03473v1
- Date: Wed, 05 Nov 2025 13:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.43829
- Title: Reinforcement Learning Using known Invariances
- Title(参考訳): 既知の不変量を用いた強化学習
- Authors: Alexandru Cioba, Aya Kayal, Laura Toni, Sattar Vakili, Alberto Bernacchia,
- Abstract要約: 本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
- 参考スコア(独自算出の注目度): 54.91261509214309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world reinforcement learning (RL) problems, the environment exhibits inherent symmetries that can be exploited to improve learning efficiency. This paper develops a theoretical and algorithmic framework for incorporating known group symmetries into kernel-based RL. We propose a symmetry-aware variant of optimistic least-squares value iteration (LSVI), which leverages invariant kernels to encode invariance in both rewards and transition dynamics. Our analysis establishes new bounds on the maximum information gain and covering numbers for invariant RKHSs, explicitly quantifying the sample efficiency gains from symmetry. Empirical results on a customized Frozen Lake environment and a 2D placement design problem confirm the theoretical improvements, demonstrating that symmetry-aware RL achieves significantly better performance than their standard kernel counterparts. These findings highlight the value of structural priors in designing more sample-efficient reinforcement learning algorithms.
- Abstract(参考訳): 多くの実世界の強化学習(RL)問題において、環境は学習効率を向上させるために活用できる固有の対称性を示す。
本稿では、既知のグループ対称性をカーネルベースのRLに組み込むための理論的・アルゴリズム的な枠組みを開発する。
そこで我々は,不変カーネルを利用して報酬と遷移力学の不変性をエンコードする,楽観的最小二乗値反復 (LSVI) の対称性を考慮した変種を提案する。
我々の分析は、不変RKHSの最大情報ゲインとカバー数に関する新しい境界を確立し、対称性からサンプル効率ゲインを明示的に定量化する。
カスタマイズされた凍結湖環境と2次元配置設計問題に関する実証的な結果により理論的改善が確認され、対称性を意識したRLが標準のカーネルよりも大幅に性能が向上することが示された。
これらの結果は、よりサンプル効率のよい強化学習アルゴリズムの設計における構造的先行性の価値を強調している。
関連論文リスト
- Improving Learning to Optimize Using Parameter Symmetries [16.76912881772023]
パラメータ空間対称性を利用して効率を向上させる学習最適化(L2O)アルゴリズムを解析する。
この結果から,ニューラルネットワークパラメータ空間対称性を利用してメタ最適化を推し進める可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-21T19:03:23Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Approximate Equivariance in Reinforcement Learning [35.04248486334824]
我々は、強化学習におけるほぼ同変のアルゴリズムを開発した。
その結果, ほぼ同変ネットワークは, 正確な対称性が存在する場合に, 正確に同変ネットワークと同等に動作することがわかった。
論文 参考訳(メタデータ) (2024-11-06T19:44:46Z) - Optimal Equivariant Architectures from the Symmetries of Matrix-Element Likelihoods [0.0]
マトリックス要素法(MEM)は長年、高エネルギー物理学におけるデータ解析の基盤となっている。
幾何学的なディープラーニングは、既知の対称性を直接設計に組み込むニューラルネットワークアーキテクチャを可能にした。
本稿では、MEMにインスパイアされた対称性と、粒子物理解析のための同変ニューラルネットワーク設計を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:56:37Z) - Multiplicative Updates for Online Convex Optimization over Symmetric
Cones [28.815822236291392]
任意の対称コーンのトレースワンスライスに対するオンライン最適化のためのプロジェクションフリーアルゴリズムであるSymmetric-Cone Multiplicative Weights Update (SCMWU)を導入する。
SCMWUは, 対称錐負エントロピーを正則化器とするFollow-the-Regularized-LeaderおよびOnline Mirror Descentと等価であることを示す。
論文 参考訳(メタデータ) (2023-07-06T17:06:43Z) - Adaptive Log-Euclidean Metrics for SPD Matrix Learning [73.12655932115881]
広く使われているログユークリッド計量(LEM)を拡張した適応ログユークリッド計量(ALEM)を提案する。
実験および理論的結果から,SPDニューラルネットワークの性能向上における提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-26T18:31:52Z) - On the Importance of Asymmetry for Siamese Representation Learning [53.86929387179092]
シームズネットワークは、2つの並列エンコーダと概念的に対称である。
ネットワーク内の2つのエンコーダを明確に区別することで,非対称性の重要性について検討する。
非対称設計による改善は、より長いトレーニングスケジュール、複数の他のフレームワーク、より新しいバックボーンに一般化されている。
論文 参考訳(メタデータ) (2022-04-01T17:57:24Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z) - Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。
我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文 参考訳(メタデータ) (2020-07-01T02:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。