論文の概要: Focus On What Matters: Separated Models For Visual-Based RL Generalization
- arxiv url: http://arxiv.org/abs/2410.10834v1
- Date: Sun, 29 Sep 2024 04:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 10:10:31.225154
- Title: Focus On What Matters: Separated Models For Visual-Based RL Generalization
- Title(参考訳): 問題にフォーカスする:ビジュアルベースRL一般化のための分離モデル
- Authors: Di Zhang, Bowen Lv, Hai Zhang, Feifan Yang, Junqiao Zhao, Hang Yu, Chang Huang, Hongtu Zhou, Chen Ye, Changjun Jiang,
- Abstract要約: 一般化のための分離モデル(SMG)は、一般化のための画像再構成を利用する新しいアプローチである。
SMGは、異なるシナリオにわたるタスク関連領域へのエージェントの焦点を導くために、さらに2つの一貫性を失った。
DMCの実験では、SMGの一般化におけるSOTA性能、特にビデオ背景設定において優れていることが示されている。
- 参考スコア(独自算出の注目度): 16.87505461758058
- License:
- Abstract: A primary challenge for visual-based Reinforcement Learning (RL) is to generalize effectively across unseen environments. Although previous studies have explored different auxiliary tasks to enhance generalization, few adopt image reconstruction due to concerns about exacerbating overfitting to task-irrelevant features during training. Perceiving the pre-eminence of image reconstruction in representation learning, we propose SMG (Separated Models for Generalization), a novel approach that exploits image reconstruction for generalization. SMG introduces two model branches to extract task-relevant and task-irrelevant representations separately from visual observations via cooperatively reconstruction. Built upon this architecture, we further emphasize the importance of task-relevant features for generalization. Specifically, SMG incorporates two additional consistency losses to guide the agent's focus toward task-relevant areas across different scenarios, thereby achieving free from overfitting. Extensive experiments in DMC demonstrate the SOTA performance of SMG in generalization, particularly excelling in video-background settings. Evaluations on robotic manipulation tasks further confirm the robustness of SMG in real-world applications.
- Abstract(参考訳): 視覚に基づく強化学習(RL)の最大の課題は、目に見えない環境全体にわたって効果的に一般化することである。
従来の研究では、一般化を促進するために様々な補助的タスクを探索してきたが、訓練中にタスク非関連の特徴に過度な適合が増すという懸念から、画像再構成を採用するものはほとんどなかった。
表現学習における画像再構成の優位性を予見し、一般化のための画像再構成を利用する新しいアプローチであるSMG(Separated Models for Generalization)を提案する。
SMGは2つのモデル分岐を導入し、協調的な再構築を通して視覚的観察からタスク関連表現とタスク関連表現を別々に抽出する。
このアーキテクチャを基盤として,一般化のためのタスク関連機能の重要性をさらに強調する。
具体的には、SMGは、異なるシナリオにまたがるタスク関連領域へのエージェントの焦点を導くために、さらに2つの一貫性を失う。
DMCにおける大規模な実験は、SMGの一般化におけるSOTA性能、特にビデオ背景設定における優れた性能を示す。
ロボット操作タスクの評価は、実世界の応用におけるSMGの堅牢性をさらに裏付ける。
関連論文リスト
- AEMIM: Adversarial Examples Meet Masked Image Modeling [12.072673694665934]
本稿では,新たな再構成対象として,敵対例をマスク画像モデリングに組み込むことを提案する。
特に、原画像に対応する敵の例を再構成する、新しい補助的前文タスクを導入する。
また,MIM事前学習において,より適切な対戦例を構築するために,革新的な敵攻撃を考案する。
論文 参考訳(メタデータ) (2024-07-16T09:39:13Z) - RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model [22.56227565913003]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文 参考訳(メタデータ) (2024-03-12T11:51:59Z) - Boosting Image Restoration via Priors from Pre-trained Models [54.83907596825985]
我々は、OSFによるターゲット復元ネットワークの復元結果を改善するために、Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習する。
PTG-RMは、低照度強化、デラリニング、デブロアリング、デノナイジングなど、様々なタスクにおける様々なモデルの復元性能を効果的に向上させる。
論文 参考訳(メタデータ) (2024-03-11T15:11:57Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Pre-Trained Image Encoder for Generalizable Visual Reinforcement
Learning [27.304282924423095]
一般化可能ビジュアル強化学習(PIE-G)のための事前学習画像を提案する。
PIE-Gは、目に見えない視覚シナリオをゼロショットで一般化できる、シンプルで効果的なフレームワークである。
実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示唆している。
論文 参考訳(メタデータ) (2022-12-17T12:45:08Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - HiFaceGAN: Face Renovation via Collaborative Suppression and
Replenishment [63.333407973913374]
フェース・リノベーション(FR)は意味誘導型生成問題である。
HiFaceGANは、複数のネストされたCSRユニットを含む多段階フレームワークである。
合成画像と実顔画像の両方の実験により,HiFaceGANの優れた性能が確認された。
論文 参考訳(メタデータ) (2020-05-11T11:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。