論文の概要: Using Contrastive Samples for Identifying and Leveraging Possible Causal
Relationships in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.17296v1
- Date: Fri, 28 Oct 2022 11:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:48:21.868903
- Title: Using Contrastive Samples for Identifying and Leveraging Possible Causal
Relationships in Reinforcement Learning
- Title(参考訳): コントラストサンプルを用いた強化学習における可能性因果関係の同定と活用
- Authors: Harshad Khadilkar and Hardik Meisheri
- Abstract要約: そこで本稿では,後続の報酬に異常に大きな変動がある状態において,遷移と大きなずれを関連付ける手法を提案する。
このような遷移は因果効果としてマークされ、対応する状態-作用対が別のリプレイバッファに追加される。
我々は、CERが、あらゆる非政治強化学習アルゴリズムを含む幅広い学習タスクに有用であると信じている。
- 参考スコア(独自算出の注目度): 4.924126492174801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant challenge in reinforcement learning is quantifying the complex
relationship between actions and long-term rewards. The effects may manifest
themselves over a long sequence of state-action pairs, making them hard to
pinpoint. In this paper, we propose a method to link transitions with
significant deviations in state with unusually large variations in subsequent
rewards. Such transitions are marked as possible causal effects, and the
corresponding state-action pairs are added to a separate replay buffer. In
addition, we include \textit{contrastive} samples corresponding to transitions
from a similar state but with differing actions. Including this Contrastive
Experience Replay (CER) during training is shown to outperform standard
value-based methods on 2D navigation tasks. We believe that CER can be useful
for a broad class of learning tasks, including for any off-policy reinforcement
learning algorithm.
- Abstract(参考訳): 強化学習における重要な課題は、行動と長期的な報酬の間の複雑な関係を定量化することである。
この効果は、状態と作用の長いペアの長い列に現れるため、特定が困難である。
本稿では,変遷と有意な逸脱と,それに続く報酬の異常な変化をリンクする手法を提案する。
このような遷移は因果効果としてマークされ、対応する状態-アクションペアは別のリプレイバッファに追加される。
さらに、同様の状態からの遷移に対応するが、異なるアクションを持つ \textit{contrastive}サンプルも含む。
トレーニング中のContrastive Experience Replay(CER)を含めると、2次元ナビゲーションタスクにおける標準値ベースの手法よりも優れていることが示される。
我々はcerは、オフポリシー強化学習アルゴリズムを含む幅広い学習タスクに有用であると信じている。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples [6.777249026160499]
本研究は,実例に基づく探索を改善するアルゴリズムである例(VPACE)から有償補助制御を導入する。
本稿では,VPACEが有界値の推定値を維持しながら,課題の学習効率を大幅に向上することを示す。
予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという一般的なアプローチよりも効率的に学習できることを示唆している。
論文 参考訳(メタデータ) (2024-07-03T17:54:11Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-07T02:43:44Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。