論文の概要: Symmetry Detection in Trajectory Data for More Meaningful Reinforcement
Learning Representations
- arxiv url: http://arxiv.org/abs/2211.16381v1
- Date: Tue, 29 Nov 2022 17:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:37:14.687160
- Title: Symmetry Detection in Trajectory Data for More Meaningful Reinforcement
Learning Representations
- Title(参考訳): より有意義な強化学習表現のための軌道データの対称性検出
- Authors: Marissa D'Alonzo and Rebecca Russell
- Abstract要約: 本稿では,RL対称性を生の軌跡データから直接検出する手法を提案する。
本研究では, 環境物理とRL政策の双方の基礎となる対称性を推定できる2つのシミュレーションRL事例について実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge of the symmetries of reinforcement learning (RL) systems can be
used to create compressed and semantically meaningful representations of a
low-level state space. We present a method of automatically detecting RL
symmetries directly from raw trajectory data without requiring active control
of the system. Our method generates candidate symmetries and trains a recurrent
neural network (RNN) to discriminate between the original trajectories and the
transformed trajectories for each candidate symmetry. The RNN discriminator's
accuracy for each candidate reveals how symmetric the system is under that
transformation. This information can be used to create high-level
representations that are invariant to all symmetries on a dataset level and to
communicate properties of the RL behavior to users. We show in experiments on
two simulated RL use cases (a pusher robot and a UAV flying in wind) that our
method can determine the symmetries underlying both the environment physics and
the trained RL policy.
- Abstract(参考訳): 強化学習(RL)システムの対称性の知識は、低レベル状態空間の圧縮された意味論的意味のある表現を作成するのに利用できる。
本稿では,システムのアクティブな制御を必要とせず,原軌道データから直接rl対称性を検出する手法を提案する。
本手法は, 候補対称性を生成し, リカレントニューラルネットワーク(rnn)を訓練し, 候補対称性ごとに元の軌道と変換された軌道を判別する。
各候補に対するRNN判別器の精度は、その変換の下でシステムがどのように対称であるかを明らかにする。
この情報は、データセットレベルですべての対称性に不変な高レベル表現を作成し、rl動作の特性をユーザに伝えるために使うことができる。
本研究では, 風上を飛ぶ推進ロボットとUAVの2つの実例を用いて, 環境物理と訓練されたRL政策の両方の基礎となる対称性を判定する実験を行った。
関連論文リスト
- Self-Supervised Detection of Perfect and Partial Input-Dependent
Symmetries [13.642876234762662]
群同値は、入力の群変換に対する一貫した応答を保証する。
この性質は、グループで考慮された対称性がデータで観測されたものとは異なる場合、過度に制約されたモデルにつながる可能性がある。
本稿では,ラベルを使わずに各入力の対称性のレベルを検出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:46Z) - Learning Radio Environments by Differentiable Ray Tracing [56.40113938833999]
本稿では, 材料特性, 散乱, アンテナパターンの微分パラメトリゼーションによって補う, 勾配式キャリブレーション法を提案する。
提案手法は,MIMO(分散マルチインプットマルチインプット・マルチアウトプット・チャネル・サウンドア)を用いて,合成データと実世界の屋内チャネル計測の両方を用いて検証した。
論文 参考訳(メタデータ) (2023-11-30T13:50:21Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Latent Space Symmetry Discovery [34.17702681244696]
本稿では,データから非線形対称性を発見できる新しい生成モデルであるLatent LieGANを提案する。
本手法は, 特定の条件下では任意の非線形対称性を表現可能であることを示す。
各種力学系における方程式発見と長期予測の改善におけるLaLiGANの活用例を示す。
論文 参考訳(メタデータ) (2023-09-29T19:33:01Z) - Oracle-Preserving Latent Flows [58.720142291102135]
我々はラベル付きデータセット全体にわたって複数の非自明な連続対称性を同時に発見するための方法論を開発する。
対称性変換と対応するジェネレータは、特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。
この研究における2つの新しい要素は、縮小次元の潜在空間の使用と、高次元のオラクルに関して不変な変換への一般化である。
論文 参考訳(メタデータ) (2023-02-02T00:13:32Z) - LieGG: Studying Learned Lie Group Generators [1.5293427903448025]
ニューラルネットワークに組み込まれた対称性は、データを保存して学習することで、幅広いタスクに対して非常に有益であるように思える。
本稿では,ニューラルネットワークが学習した対称性を抽出し,ネットワークの不変度を評価する手法を提案する。
論文 参考訳(メタデータ) (2022-10-09T20:42:37Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Transferred Q-learning [79.79659145328856]
我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングについて検討する。
オフラインのソーススタディを用いたバッチとオンラインの$Q$ラーニングのためのトランスファー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-09T20:08:19Z) - Koopman Q-learning: Offline Reinforcement Learning via Symmetries of
Dynamics [29.219095364935885]
オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。
現在のアルゴリズムは、トレーニングデータセットに過度に適合し、環境のアウト・オブ・ディストリビューションの一般化にデプロイすると、パフォーマンスが悪くなります。
我々は、システムの基盤となる力学の対称性を推測できるクープマン潜在表現を学習する。
我々は,D4RL,Metaworld,Robosuiteなどのオフライン強化学習タスクとデータセットをベンチマークで評価した。
論文 参考訳(メタデータ) (2021-11-02T04:32:18Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z) - Detecting Symmetries with Neural Networks [0.0]
ニューラルネットワークの埋め込み層における構造を広範囲に活用する。
我々は、対称性が存在するかどうかを特定し、入力中の対称性の軌道を特定する。
この例では、グラフの観点で新しいデータ表現を示す。
論文 参考訳(メタデータ) (2020-03-30T17:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。