Fugu-MT 論文翻訳(概要): Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution

論文の概要: Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution

arxiv url: http://arxiv.org/abs/2302.09601v1
Date: Sun, 19 Feb 2023 15:47:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-21 17:31:50.783653
Title: Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution
Title（参考訳）: 報酬系列分布を用いた視覚強化学習の一般化
Authors: Jie Wang, Rui Yang, Zijie Geng, Zhihao Shi, Mingxuan Ye, Qi Zhou, Shuiwang Ji, Bin Li, Yongdong Zhang, and Feng Wu
Abstract要約: 部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 98.67737684075587
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalization in partially observed markov decision processes (POMDPs) is critical for successful applications of visual reinforcement learning (VRL) in real scenarios. A widely used idea is to learn task-relevant representations that encode task-relevant information of common features in POMDPs, i.e., rewards and transition dynamics. As transition dynamics in the latent state space -- which are task-relevant and invariant to visual distractions -- are unknown to the agents, existing methods alternatively use transition dynamics in the observation space to extract task-relevant information in transition dynamics. However, such transition dynamics in the observation space involve task-irrelevant visual distractions, degrading the generalization performance of VRL methods. To tackle this problem, we propose the reward sequence distribution conditioned on the starting observation and the predefined subsequent action sequence (RSD-OA). The appealing features of RSD-OA include that: (1) RSD-OA is invariant to visual distractions, as it is conditioned on the predefined subsequent action sequence without task-irrelevant information from transition dynamics, and (2) the reward sequence captures long-term task-relevant information in both rewards and transition dynamics. Experiments demonstrate that our representation learning approach based on RSD-OA significantly improves the generalization performance on unseen environments, outperforming several state-of-the-arts on DeepMind Control tasks with visual distractions.
Abstract（参考訳）: 部分的に観察されたマルコフ決定過程(POMDP)の一般化は、実シナリオにおける視覚強化学習(VRL)の成功に不可欠である。広く使われている考え方は、PMDPの共通機能、すなわち報酬と遷移ダイナミクスのタスク関連情報を符号化するタスク関連表現を学習することである。潜在状態空間における遷移ダイナミクス(タスク関連で視覚的障害に不変である)はエージェントには未知であるため、既存の手法では観察空間における遷移ダイナミクスを使用して、遷移ダイナミクスにおけるタスク関連情報を抽出する。しかし、観察空間におけるそのような遷移ダイナミクスは、タスク非関連な視覚的邪魔を伴い、VRL法の一般化性能を低下させる。そこで本研究では,開始観測に基づく報酬シーケンス分布と,事前定義された後続アクションシーケンス(rsd-oa)を提案する。 RSD-OA の魅力は、(1) RSD-OA は、タスク非関連情報を移行ダイナミクスから引き起こすことなく、予め定義された後続のアクションシーケンスに条件付けされているため、視覚的障害に不変であり、(2) 報酬シーケンスは、報酬と遷移ダイナミクスの両方において、長期的なタスク関連情報をキャプチャする。実験により, rsd-oaに基づく表現学習アプローチは, 視覚障害を伴うdeepmind制御タスクの最先端を上回って, 未知覚環境における一般化性能を大幅に向上させることが示された。

関連論文リスト

Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文参考訳（メタデータ） (2025-02-17T12:26:34Z)
Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-12T12:00:16Z)
Unsupervised Representation Learning of Complex Time Series for Maneuverability State Identification in Smart Mobility [0.0]
スマートモビリティでは、操縦パターンのような行動の時間的ダイナミクスを提供する上で、MSSは重要な役割を果たす。本研究では,センサを用いた車両から収集したMSSデータのモデル化に関わる課題に対処することを目的とする。我々の目標は、スマートモビリティにおける操作状態の特定における2つの異なる教師なし表現学習手法の有効性を検討することである。
論文参考訳（メタデータ） (2024-08-26T15:16:18Z)
Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文参考訳（メタデータ） (2024-05-30T06:31:03Z)
STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文参考訳（メタデータ） (2024-04-20T07:56:21Z)
Sequential Action-Induced Invariant Representation for Reinforcement Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文参考訳（メタデータ） (2023-09-22T05:31:55Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2022-05-20T14:52:03Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Learning Self-Modulating Attention in Continuous Time Space with Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文参考訳（メタデータ） (2022-03-30T03:54:11Z)
Transfer RL across Observation Feature Spaces via Model-Based Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文参考訳（メタデータ） (2022-01-01T22:41:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。