論文の概要: Towards Control-Centric Representations in Reinforcement Learning from
Images
- arxiv url: http://arxiv.org/abs/2310.16655v2
- Date: Fri, 27 Oct 2023 10:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 10:53:01.521090
- Title: Towards Control-Centric Representations in Reinforcement Learning from
Images
- Title(参考訳): 画像からの強化学習における制御中心表現に向けて
- Authors: Chen Liu, Hongyu Zang, Xin Li, Yong Heng, Yifei Wang, Zhen Fang, Yisen
Wang, Mingzhong Wang
- Abstract要約: ReBisは、報酬なしの制御情報と報酬特化知識を統合することで、制御中心の情報を取得することを目指している。
AtariゲームとDeepMind Control Suitを含む2つの大規模なベンチマークに関する実証研究は、ReBisが既存の方法よりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 43.21376020617722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based Reinforcement Learning is a practical yet challenging task. A
major hurdle lies in extracting control-centric representations while
disregarding irrelevant information. While approaches that follow the
bisimulation principle exhibit the potential in learning state representations
to address this issue, they still grapple with the limited expressive capacity
of latent dynamics and the inadaptability to sparse reward environments. To
address these limitations, we introduce ReBis, which aims to capture
control-centric information by integrating reward-free control information
alongside reward-specific knowledge. ReBis utilizes a transformer architecture
to implicitly model the dynamics and incorporates block-wise masking to
eliminate spatiotemporal redundancy. Moreover, ReBis combines
bisimulation-based loss with asymmetric reconstruction loss to prevent feature
collapse in environments with sparse rewards. Empirical studies on two large
benchmarks, including Atari games and DeepMind Control Suit, demonstrate that
ReBis has superior performance compared to existing methods, proving its
effectiveness.
- Abstract(参考訳): イメージベースの強化学習は実践的だが難しい課題である。
主なハードルは、無関係な情報を無視しながら制御中心の表現を抽出することである。
バイシミュレーション原理に従うアプローチは、この問題に対処するために状態表現を学習する可能性を示す一方で、潜在力学の表現能力の制限と報酬環境のスパースに対する適応性の欠如にはまだ不満を呈している。
この制限に対処するため,報奨不要の制御情報と報奨特化知識を統合することで,制御中心の情報をキャプチャすることを目的としたReBisを導入する。
ReBisはトランスフォーマーアーキテクチャを使用して、動的を暗黙的にモデル化し、時空間冗長性を排除するブロックワイドマスキングを取り入れている。
さらにrebisは、バイシミュレーションに基づく損失と非対称なレコンストラクション損失を組み合わせることで、少ない報酬で機能崩壊を防止する。
AtariゲームとDeepMind Control Suitを含む2つの大きなベンチマークに関する実証研究は、ReBisが既存の方法よりも優れた性能を示し、その有効性を証明している。
関連論文リスト
- Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Understanding and Addressing the Pitfalls of Bisimulation-based
Representations in Offline Reinforcement Learning [34.66035026036424]
オンライン環境においてバイシミュレーション手法が成功する理由を理解することを目的としているが、オフラインタスクではフェールする。
分析の結果,データセットの欠落はバイシミュレーションの原理に特に有害であることが判明した。
提案手法は、MICoとSimSRの2つの最先端バイシミュレーションに基づくアルゴリズムに実装する。
論文 参考訳(メタデータ) (2023-10-26T04:20:55Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL [16.792949555151978]
再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベース・マルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させる
ここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。
コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己管理的損失を選択することができる。
論文 参考訳(メタデータ) (2023-02-10T15:57:20Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。