論文の概要: Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution
- arxiv url: http://arxiv.org/abs/2302.09601v1
- Date: Sun, 19 Feb 2023 15:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:31:50.783653
- Title: Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution
- Title(参考訳): 報酬系列分布を用いた視覚強化学習の一般化
- Authors: Jie Wang, Rui Yang, Zijie Geng, Zhihao Shi, Mingxuan Ye, Qi Zhou,
Shuiwang Ji, Bin Li, Yongdong Zhang, and Feng Wu
- Abstract要約: 部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 98.67737684075587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in partially observed markov decision processes (POMDPs) is
critical for successful applications of visual reinforcement learning (VRL) in
real scenarios. A widely used idea is to learn task-relevant representations
that encode task-relevant information of common features in POMDPs, i.e.,
rewards and transition dynamics. As transition dynamics in the latent state
space -- which are task-relevant and invariant to visual distractions -- are
unknown to the agents, existing methods alternatively use transition dynamics
in the observation space to extract task-relevant information in transition
dynamics. However, such transition dynamics in the observation space involve
task-irrelevant visual distractions, degrading the generalization performance
of VRL methods. To tackle this problem, we propose the reward sequence
distribution conditioned on the starting observation and the predefined
subsequent action sequence (RSD-OA). The appealing features of RSD-OA include
that: (1) RSD-OA is invariant to visual distractions, as it is conditioned on
the predefined subsequent action sequence without task-irrelevant information
from transition dynamics, and (2) the reward sequence captures long-term
task-relevant information in both rewards and transition dynamics. Experiments
demonstrate that our representation learning approach based on RSD-OA
significantly improves the generalization performance on unseen environments,
outperforming several state-of-the-arts on DeepMind Control tasks with visual
distractions.
- Abstract(参考訳): 部分的に観察されたマルコフ決定過程(POMDP)の一般化は、実シナリオにおける視覚強化学習(VRL)の成功に不可欠である。
広く使われている考え方は、PMDPの共通機能、すなわち報酬と遷移ダイナミクスのタスク関連情報を符号化するタスク関連表現を学習することである。
潜在状態空間における遷移ダイナミクス(タスク関連で視覚的障害に不変である)はエージェントには未知であるため、既存の手法では観察空間における遷移ダイナミクスを使用して、遷移ダイナミクスにおけるタスク関連情報を抽出する。
しかし、観察空間におけるそのような遷移ダイナミクスは、タスク非関連な視覚的邪魔を伴い、VRL法の一般化性能を低下させる。
そこで本研究では,開始観測に基づく報酬シーケンス分布と,事前定義された後続アクションシーケンス(rsd-oa)を提案する。
RSD-OA の魅力は、(1) RSD-OA は、タスク非関連情報を移行ダイナミクスから引き起こすことなく、予め定義された後続のアクションシーケンスに条件付けされているため、視覚的障害に不変であり、(2) 報酬シーケンスは、報酬と遷移ダイナミクスの両方において、長期的なタスク関連情報をキャプチャする。
実験により, rsd-oaに基づく表現学習アプローチは, 視覚障害を伴うdeepmind制御タスクの最先端を上回って, 未知覚環境における一般化性能を大幅に向上させることが示された。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [0.0]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。