論文の概要: An Investigation of Time Reversal Symmetry in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.17008v1
- Date: Tue, 28 Nov 2023 18:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:13:51.664747
- Title: An Investigation of Time Reversal Symmetry in Reinforcement Learning
- Title(参考訳): 強化学習における時間反転対称性の検討
- Authors: Brett Barkley, Amy Zhang, David Fridovich-Keil
- Abstract要約: マルコフ決定過程(MDP)における時間反転対称性の概念を定式化する。
MDPにおける時間反転構造を利用することで、エージェントが経験したすべての環境遷移を、実現可能な逆時間遷移に変換することができる。
新たに合成したデータの有用性を検証するため,時間対称データ拡張(TSDA)と呼ばれる新しい手法を開発した。
- 参考スコア(独自算出の注目度): 18.375784421726287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the fundamental challenges associated with reinforcement learning (RL)
is that collecting sufficient data can be both time-consuming and expensive. In
this paper, we formalize a concept of time reversal symmetry in a Markov
decision process (MDP), which builds upon the established structure of
dynamically reversible Markov chains (DRMCs) and time-reversibility in
classical physics. Specifically, we investigate the utility of this concept in
reducing the sample complexity of reinforcement learning. We observe that
utilizing the structure of time reversal in an MDP allows every environment
transition experienced by an agent to be transformed into a feasible
reverse-time transition, effectively doubling the number of experiences in the
environment. To test the usefulness of this newly synthesized data, we develop
a novel approach called time symmetric data augmentation (TSDA) and investigate
its application in both proprioceptive and pixel-based state within the realm
of off-policy, model-free RL. Empirical evaluations showcase how these
synthetic transitions can enhance the sample efficiency of RL agents in time
reversible scenarios without friction or contact. We also test this method in
more realistic environments where these assumptions are not globally satisfied.
We find that TSDA can significantly degrade sample efficiency and policy
performance, but can also improve sample efficiency under the right conditions.
Ultimately we conclude that time symmetry shows promise in enhancing the sample
efficiency of reinforcement learning and provide guidance when the environment
and reward structures are of an appropriate form for TSDA to be employed
effectively.
- Abstract(参考訳): 強化学習(RL)にかかわる基本的な課題の1つは、十分なデータを集めることは、時間と費用の両方を消費することである。
本稿では、動的可逆マルコフ連鎖(DRMC)の確立された構造と古典物理学における時間可逆性に基づくマルコフ決定過程(MDP)における時間可逆対称性の概念を定式化する。
具体的には,強化学習のサンプル複雑性を低減し,この概念の有用性について検討する。
mdpにおける時間反転の構造を利用することで、エージェントが経験する全ての環境遷移を、実現可能な逆時間遷移に変換することができ、環境における経験の数を効果的に倍にする。
新たに合成したデータの有用性を検証するため,時間対称データ拡張法 (TSDA) と呼ばれる新しい手法を開発し, オフポリティ, モデルフリーRLの領域内において, プロピオセプティヴおよび画素ベース状態の両方に適用する。
実験的評価は、これらの合成遷移が、摩擦や接触のない可逆的なシナリオにおいて、RL剤の試料効率をいかに向上するかを示す。
また,これらの仮定をグローバルに満たさない,より現実的な環境でもテストした。
TSDAは試料効率と政策性能を著しく低下させることができるが,適切な条件下で試料効率を向上させることもできる。
最終的に、時間対称性は強化学習のサンプル効率を高めることを約束し、環境と報酬構造がTSDAを効果的に活用するための適切な形態である場合のガイダンスを提供する。
関連論文リスト
- Temporal Convolution-based Hybrid Model Approach with Representation Learning for Real-Time Acoustic Anomaly Detection [0.0]
本研究は, 実時間音響異常検出への革新的アプローチを導入する。
我々の手法は、半教師付き時間的畳み込みと表現学習と、時間的畳み込みネットワーク(TCN)によるハイブリッドモデル戦略を組み合わせたものである。
提案モデルでは,本手法の有効性を実証し,現場で確立された研究よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-25T17:50:48Z) - Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。
この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。
本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文 参考訳(メタデータ) (2024-09-05T00:38:27Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Time-Reversal Symmetric ODE Network [138.02741983098454]
時間反転対称性は古典力学や量子力学においてしばしば保持される基本的な性質である。
本稿では,通常の微分方程式(ODE)ネットワークがこの時間反転対称性にどの程度よく適合しているかを測定する新しい損失関数を提案する。
時間反転対称性を完全に持たないシステムであっても, TRS-ODEN はベースラインよりも優れた予測性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-22T12:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。