論文の概要: Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards
- arxiv url: http://arxiv.org/abs/2403.19024v1
- Date: Wed, 27 Mar 2024 21:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:52:05.688514
- Title: Exploiting Symmetry in Dynamics for Model-Based Reinforcement Learning with Asymmetric Rewards
- Title(参考訳): 非対称リワードを用いたモデルベース強化学習のためのダイナミクスの爆発的対称性
- Authors: Yasin Sonmez, Neelay Junnarkar, Murat Arcak,
- Abstract要約: 本稿では,特定の対称性を示すダイナミックスを学習する手法を提案する。
数値実験により,提案手法がより正確な力学モデルを学習できることを実証する。
- 参考スコア(独自算出の注目度): 0.6612847014373572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in reinforcement learning has leveraged symmetries in the model to improve sample efficiency in training a policy. A commonly used simplifying assumption is that the dynamics and reward both exhibit the same symmetry. However, in many real-world environments, the dynamical model exhibits symmetry independent of the reward model: the reward may not satisfy the same symmetries as the dynamics. In this paper, we investigate scenarios where only the dynamics are assumed to exhibit symmetry, extending the scope of problems in reinforcement learning and learning in control theory where symmetry techniques can be applied. We use Cartan's moving frame method to introduce a technique for learning dynamics which, by construction, exhibit specified symmetries. We demonstrate through numerical experiments that the proposed method learns a more accurate dynamical model.
- Abstract(参考訳): 強化学習における最近の研究は、政策を訓練する際のサンプル効率を改善するためにモデル内の対称性を活用している。
一般的に用いられる単純化仮定は、力学と報酬の両方が同じ対称性を示すというものである。
しかし、多くの実世界の環境では、力学モデルは報酬モデルとは無関係に対称性を示す。
本稿では,対称性の応用が可能な制御理論における強化学習や学習における問題の範囲を拡大し,対称性のみを仮定するシナリオについて検討する。
カルタンの移動フレーム法を用いて力学を学習する手法を導入する。
数値実験により,提案手法がより正確な力学モデルを学習できることを実証する。
関連論文リスト
- A Unified Framework to Enforce, Discover, and Promote Symmetry in
Machine Learning [5.582881461692378]
機械学習モデルに対称性を組み込むための統一理論および方法論の枠組みを提供する。
対称性の強制と発見は、リー微分の双線型構造に対して双対である線形代数的タスクであることを示す。
これらのアイデアを、基底関数回帰、動的システム発見、多層パーセプトロン、画像などの空間場に作用するニューラルネットワークなど、幅広い機械学習モデルに適用する方法について説明する。
論文 参考訳(メタデータ) (2023-11-01T01:19:54Z) - ${\rm E}(3)$-Equivariant Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [9.111679916965276]
我々は,ある協調型マルチエージェント強化学習問題に固有のユークリッド対称性の活用に焦点をあてる。
我々は,マルチエージェントアクター批判手法の帰納バイアスとして,対称的制約を組み込んだニューラルネットワークアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-08-23T00:18:17Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - On discrete symmetries of robotics systems: A group-theoretic and
data-driven analysis [38.92081817503126]
力学系の離散的形態対称性について検討する。
これらの対称性は、系の形態学における1つ以上の平面/対称性の軸の存在から生じる。
我々はこれらの対称性をデータ拡張と$G$-equivariant Neural Networkを用いて活用する。
論文 参考訳(メタデータ) (2023-02-21T04:10:16Z) - The Surprising Effectiveness of Equivariant Models in Domains with
Latent Symmetry [6.716931832076628]
領域対称性と正確に一致しない対称性制約を課すことは、環境における真の対称性を学ぶのに非常に有用であることを示す。
ロボット操作・制御問題における教師付き学習と強化学習の両方において,同変モデルが潜在対称性を持つ領域における非同変手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-11-16T21:51:55Z) - On the Importance of Asymmetry for Siamese Representation Learning [53.86929387179092]
シームズネットワークは、2つの並列エンコーダと概念的に対称である。
ネットワーク内の2つのエンコーダを明確に区別することで,非対称性の重要性について検討する。
非対称設計による改善は、より長いトレーニングスケジュール、複数の他のフレームワーク、より新しいバックボーンに一般化されている。
論文 参考訳(メタデータ) (2022-04-01T17:57:24Z) - Symmetry Group Equivariant Architectures for Physics [52.784926970374556]
機械学習の分野では、対称性に対する認識が目覚ましいパフォーマンスのブレークスルーを引き起こしている。
物理学のコミュニティと、より広い機械学習のコミュニティの両方に、理解すべきことがたくさんある、と私たちは主張する。
論文 参考訳(メタデータ) (2022-03-11T18:27:04Z) - Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。
本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文 参考訳(メタデータ) (2022-02-17T07:56:46Z) - Approximately Equivariant Networks for Imperfectly Symmetric Dynamics [24.363954435050264]
我々のモデルは、シミュレーションされた乱流領域と実世界のマルチストリームジェット流の両方において、対称性バイアスのないベースラインと過度に厳密な対称性を持つベースラインの両方より優れていることが判明した。
論文 参考訳(メタデータ) (2022-01-28T07:31:28Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Inverse Learning of Symmetries [71.62109774068064]
2つの潜在部分空間からなるモデルで対称性変換を学ぶ。
我々のアプローチは、情報ボトルネックと連続的な相互情報正規化器の組み合わせに基づいています。
我々のモデルは, 人工的および分子的データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-02-07T13:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。