論文の概要: Approximate Equivariance in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.04225v1
- Date: Wed, 06 Nov 2024 19:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:09.983594
- Title: Approximate Equivariance in Reinforcement Learning
- Title(参考訳): 強化学習における近似等価性
- Authors: Jung Yeon Park, Sujay Bhatt, Sihan Zeng, Lawson L. S. Wong, Alec Koppel, Sumitra Ganesh, Robin Walters,
- Abstract要約: 等変ニューラルネットワークは強化学習において大きな成功を収めている。
多くの問題において、近似対称性のみが存在しており、これは正確な対称性を不適切なものにしている。
我々は、強化学習におけるほぼ同変のアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 35.04248486334824
- License:
- Abstract: Equivariant neural networks have shown great success in reinforcement learning, improving sample efficiency and generalization when there is symmetry in the task. However, in many problems, only approximate symmetry is present, which makes imposing exact symmetry inappropriate. Recently, approximately equivariant networks have been proposed for supervised classification and modeling physical systems. In this work, we develop approximately equivariant algorithms in reinforcement learning (RL). We define approximately equivariant MDPs and theoretically characterize the effect of approximate equivariance on the optimal Q function. We propose novel RL architectures using relaxed group convolutions and experiment on several continuous control domains and stock trading with real financial data. Our results demonstrate that approximate equivariance matches prior work when exact symmetries are present, and outperforms them when domains exhibit approximate symmetry. As an added byproduct of these techniques, we observe increased robustness to noise at test time.
- Abstract(参考訳): 等価ニューラルネットワークは、強化学習、サンプル効率の向上、タスクに対称性がある場合の一般化において大きな成功を収めている。
しかし、多くの問題において、近似対称性のみが存在しており、これは正確な対称性を不適切なものにしている。
近年,物理システムの教師付き分類とモデリングのために,ほぼ同変のネットワークが提案されている。
本研究では,強化学習(RL)における近似同変アルゴリズムの開発を行う。
近似同変 MDP を定義し、近似同変が最適Q関数に与える影響を理論的に特徴づける。
緩和されたグループ畳み込みを用いた新しいRLアーキテクチャを提案し、いくつかの連続制御領域の実験と実際の財務データによる株式取引を行う。
この結果は、正確な対称性が存在するとき、近似同値が前の作業と一致し、ドメインが近似対称性を示すとき、それらを上回ることを示す。
これらの手法の副産物として,テスト時の騒音に対する強靭性の増加が観察された。
関連論文リスト
- Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文 参考訳(メタデータ) (2024-10-13T13:39:39Z) - Variational Inference Failures Under Model Symmetries: Permutation Invariant Posteriors for Bayesian Neural Networks [43.88179780450706]
重み空間置換対称性が変分推論に与える影響について検討する。
置換不変変分後部を構築するための対称対称性機構を考案する。
本研究は, 対称性分布が真の後部と厳密に適合していること, 元のELBO目標を用いてトレーニングできること, を示す。
論文 参考訳(メタデータ) (2024-08-10T09:06:34Z) - Symmetry Breaking and Equivariant Neural Networks [17.740760773905986]
我々は「緩和された同注入」という新しい概念を導入する。
我々は、この緩和を同変多層パーセプトロン(E-MLP)に組み込む方法を示す。
対称性の破れの関連性は、様々な応用領域で議論される。
論文 参考訳(メタデータ) (2023-12-14T15:06:48Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - The Surprising Effectiveness of Equivariant Models in Domains with
Latent Symmetry [6.716931832076628]
領域対称性と正確に一致しない対称性制約を課すことは、環境における真の対称性を学ぶのに非常に有用であることを示す。
ロボット操作・制御問題における教師付き学習と強化学習の両方において,同変モデルが潜在対称性を持つ領域における非同変手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-11-16T21:51:55Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - Relaxing Equivariance Constraints with Non-stationary Continuous Filters [20.74154804898478]
提案したパラメータ化は、ニューラルネットワークの調整可能な対称性構造を可能にするビルディングブロックと考えることができる。
CIFAR-10 および CIFAR-100 画像分類タスクにおいて, ソフトな等式が試験精度の向上につながることを実験的に検証した。
論文 参考訳(メタデータ) (2022-04-14T18:08:36Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z) - Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。
我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文 参考訳(メタデータ) (2020-07-01T02:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。