論文の概要: Sequential Action-Induced Invariant Representation for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2309.12628v1
- Date: Fri, 22 Sep 2023 05:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 15:51:02.204289
- Title: Sequential Action-Induced Invariant Representation for Reinforcement
Learning
- Title(参考訳): 強化学習のための逐次行動誘発不変表現
- Authors: Dayang Liang, Qihang Chen and Yunlong Liu
- Abstract要約: 視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
- 参考スコア(独自算出の注目度): 1.2046159151610263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to accurately learn task-relevant state representations from
high-dimensional observations with visual distractions is a realistic and
challenging problem in visual reinforcement learning. Recently, unsupervised
representation learning methods based on bisimulation metrics, contrast,
prediction, and reconstruction have shown the ability for task-relevant
information extraction. However, due to the lack of appropriate mechanisms for
the extraction of task information in the prediction, contrast, and
reconstruction-related approaches and the limitations of bisimulation-related
methods in domains with sparse rewards, it is still difficult for these methods
to be effectively extended to environments with distractions. To alleviate
these problems, in the paper, the action sequences, which contain
task-intensive signals, are incorporated into representation learning.
Specifically, we propose a Sequential Action--induced invariant Representation
(SAR) method, in which the encoder is optimized by an auxiliary learner to only
preserve the components that follow the control signals of sequential actions,
so the agent can be induced to learn the robust representation against
distractions. We conduct extensive experiments on the DeepMind Control suite
tasks with distractions while achieving the best performance over strong
baselines. We also demonstrate the effectiveness of our method at disregarding
task-irrelevant information by deploying SAR to real-world CARLA-based
autonomous driving with natural distractions. Finally, we provide the analysis
results of generalization drawn from the generalization decay and t-SNE
visualization. Code and demo videos are available at
https://github.com/DMU-XMU/SAR.git.
- Abstract(参考訳): 視覚障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は,視覚強化学習において現実的な課題である。
近年,バイシミュレーションメトリクス,コントラスト,予測,再構成に基づく教師なし表現学習手法がタスク関連情報抽出の能力を示している。
しかし、予測・コントラスト・再構成関連アプローチにおけるタスク情報抽出の適切なメカニズムの欠如や、疎報酬領域におけるバイシミュレーション関連手法の限界などにより、これらの手法を障害のある環境に効果的に拡張することは依然として困難である。
これらの問題を緩和するため,本稿では,タスク集約的な信号を含む動作シーケンスを表現学習に組み込む。
具体的には、逐次動作の制御信号に従うコンポーネントのみを保持するために、補助学習者によってエンコーダを最適化したシーケンスアクション誘発不変表現(SAR)法を提案する。
我々は,DeepMind Controlスイートのタスクに対して,強いベースライン上で最高のパフォーマンスを達成しつつ,邪魔を伴って広範な実験を行う。
また,現実のCARLAをベースとした自律運転にSARを配置することで,タスク非関連情報を無視する手法の有効性を示す。
最後に,一般化崩壊とt-sne可視化から得られた一般化の解析結果を提供する。
コードとデモビデオはhttps://github.com/DMU-XMU/SAR.git.comで公開されている。
関連論文リスト
- Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions [14.274653873720334]
本研究では, 気を散らす環境下での表現学習を容易にするための, 単純かつ効果的な補助タスクを提案する。
画像観察の課題関連成分は、先行知識と容易に識別できるという前提のもと、画像観察にセグメンテーションマスクを用いてタスク関連成分のみを識別する。
改良されたDeepMind Control Suite(DMC)とMeta-Worldタスクでは、SDは以前の作業よりもはるかに優れたサンプル効率と最終的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-13T19:24:07Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。