論文の概要: Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution
- arxiv url: http://arxiv.org/abs/2302.09601v1
- Date: Sun, 19 Feb 2023 15:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:31:50.783653
- Title: Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution
- Title(参考訳): 報酬系列分布を用いた視覚強化学習の一般化
- Authors: Jie Wang, Rui Yang, Zijie Geng, Zhihao Shi, Mingxuan Ye, Qi Zhou,
Shuiwang Ji, Bin Li, Yongdong Zhang, and Feng Wu
- Abstract要約: 部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 98.67737684075587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in partially observed markov decision processes (POMDPs) is
critical for successful applications of visual reinforcement learning (VRL) in
real scenarios. A widely used idea is to learn task-relevant representations
that encode task-relevant information of common features in POMDPs, i.e.,
rewards and transition dynamics. As transition dynamics in the latent state
space -- which are task-relevant and invariant to visual distractions -- are
unknown to the agents, existing methods alternatively use transition dynamics
in the observation space to extract task-relevant information in transition
dynamics. However, such transition dynamics in the observation space involve
task-irrelevant visual distractions, degrading the generalization performance
of VRL methods. To tackle this problem, we propose the reward sequence
distribution conditioned on the starting observation and the predefined
subsequent action sequence (RSD-OA). The appealing features of RSD-OA include
that: (1) RSD-OA is invariant to visual distractions, as it is conditioned on
the predefined subsequent action sequence without task-irrelevant information
from transition dynamics, and (2) the reward sequence captures long-term
task-relevant information in both rewards and transition dynamics. Experiments
demonstrate that our representation learning approach based on RSD-OA
significantly improves the generalization performance on unseen environments,
outperforming several state-of-the-arts on DeepMind Control tasks with visual
distractions.
- Abstract(参考訳): 部分的に観察されたマルコフ決定過程(POMDP)の一般化は、実シナリオにおける視覚強化学習(VRL)の成功に不可欠である。
広く使われている考え方は、PMDPの共通機能、すなわち報酬と遷移ダイナミクスのタスク関連情報を符号化するタスク関連表現を学習することである。
潜在状態空間における遷移ダイナミクス(タスク関連で視覚的障害に不変である)はエージェントには未知であるため、既存の手法では観察空間における遷移ダイナミクスを使用して、遷移ダイナミクスにおけるタスク関連情報を抽出する。
しかし、観察空間におけるそのような遷移ダイナミクスは、タスク非関連な視覚的邪魔を伴い、VRL法の一般化性能を低下させる。
そこで本研究では,開始観測に基づく報酬シーケンス分布と,事前定義された後続アクションシーケンス(rsd-oa)を提案する。
RSD-OA の魅力は、(1) RSD-OA は、タスク非関連情報を移行ダイナミクスから引き起こすことなく、予め定義された後続のアクションシーケンスに条件付けされているため、視覚的障害に不変であり、(2) 報酬シーケンスは、報酬と遷移ダイナミクスの両方において、長期的なタスク関連情報をキャプチャする。
実験により, rsd-oaに基づく表現学習アプローチは, 視覚障害を伴うdeepmind制御タスクの最先端を上回って, 未知覚環境における一般化性能を大幅に向上させることが示された。
関連論文リスト
- Unsupervised Representation Learning of Complex Time Series for Maneuverability State Identification in Smart Mobility [0.0]
スマートモビリティでは、操縦パターンのような行動の時間的ダイナミクスを提供する上で、MSSは重要な役割を果たす。
本研究では,センサを用いた車両から収集したMSSデータのモデル化に関わる課題に対処することを目的とする。
我々の目標は、スマートモビリティにおける操作状態の特定における2つの異なる教師なし表現学習手法の有効性を検討することである。
論文 参考訳(メタデータ) (2024-08-26T15:16:18Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。