論文の概要: Focus On What Matters: Separated Models For Visual-Based RL Generalization
- arxiv url: http://arxiv.org/abs/2410.10834v1
- Date: Sun, 29 Sep 2024 04:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 10:10:31.225154
- Title: Focus On What Matters: Separated Models For Visual-Based RL Generalization
- Title(参考訳): 問題にフォーカスする:ビジュアルベースRL一般化のための分離モデル
- Authors: Di Zhang, Bowen Lv, Hai Zhang, Feifan Yang, Junqiao Zhao, Hang Yu, Chang Huang, Hongtu Zhou, Chen Ye, Changjun Jiang,
- Abstract要約: 一般化のための分離モデル(SMG)は、一般化のための画像再構成を利用する新しいアプローチである。
SMGは、異なるシナリオにわたるタスク関連領域へのエージェントの焦点を導くために、さらに2つの一貫性を失った。
DMCの実験では、SMGの一般化におけるSOTA性能、特にビデオ背景設定において優れていることが示されている。
- 参考スコア(独自算出の注目度): 16.87505461758058
- License:
- Abstract: A primary challenge for visual-based Reinforcement Learning (RL) is to generalize effectively across unseen environments. Although previous studies have explored different auxiliary tasks to enhance generalization, few adopt image reconstruction due to concerns about exacerbating overfitting to task-irrelevant features during training. Perceiving the pre-eminence of image reconstruction in representation learning, we propose SMG (Separated Models for Generalization), a novel approach that exploits image reconstruction for generalization. SMG introduces two model branches to extract task-relevant and task-irrelevant representations separately from visual observations via cooperatively reconstruction. Built upon this architecture, we further emphasize the importance of task-relevant features for generalization. Specifically, SMG incorporates two additional consistency losses to guide the agent's focus toward task-relevant areas across different scenarios, thereby achieving free from overfitting. Extensive experiments in DMC demonstrate the SOTA performance of SMG in generalization, particularly excelling in video-background settings. Evaluations on robotic manipulation tasks further confirm the robustness of SMG in real-world applications.
- Abstract(参考訳): 視覚に基づく強化学習(RL)の最大の課題は、目に見えない環境全体にわたって効果的に一般化することである。
従来の研究では、一般化を促進するために様々な補助的タスクを探索してきたが、訓練中にタスク非関連の特徴に過度な適合が増すという懸念から、画像再構成を採用するものはほとんどなかった。
表現学習における画像再構成の優位性を予見し、一般化のための画像再構成を利用する新しいアプローチであるSMG(Separated Models for Generalization)を提案する。
SMGは2つのモデル分岐を導入し、協調的な再構築を通して視覚的観察からタスク関連表現とタスク関連表現を別々に抽出する。
このアーキテクチャを基盤として,一般化のためのタスク関連機能の重要性をさらに強調する。
具体的には、SMGは、異なるシナリオにまたがるタスク関連領域へのエージェントの焦点を導くために、さらに2つの一貫性を失う。
DMCにおける大規模な実験は、SMGの一般化におけるSOTA性能、特にビデオ背景設定における優れた性能を示す。
ロボット操作タスクの評価は、実世界の応用におけるSMGの堅牢性をさらに裏付ける。
関連論文リスト
- Varformer: Adapting VAR's Generative Prior for Image Restoration [6.0648320320309885]
新しい画像生成パラダイムであるVARは、次世代の予測アプローチを適用することで、生成品質の拡散モデルを上回る。
VAR内の複数スケールの潜在表現を復元として定式化し、繊細に設計されたVarFormerフレームワークを前進させる。
論文 参考訳(メタデータ) (2024-12-30T16:32:55Z) - Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-12-24T04:32:36Z) - AEMIM: Adversarial Examples Meet Masked Image Modeling [12.072673694665934]
本稿では,新たな再構成対象として,敵対例をマスク画像モデリングに組み込むことを提案する。
特に、原画像に対応する敵の例を再構成する、新しい補助的前文タスクを導入する。
また,MIM事前学習において,より適切な対戦例を構築するために,革新的な敵攻撃を考案する。
論文 参考訳(メタデータ) (2024-07-16T09:39:13Z) - RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model [22.56227565913003]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文 参考訳(メタデータ) (2024-03-12T11:51:59Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - HiFaceGAN: Face Renovation via Collaborative Suppression and
Replenishment [63.333407973913374]
フェース・リノベーション(FR)は意味誘導型生成問題である。
HiFaceGANは、複数のネストされたCSRユニットを含む多段階フレームワークである。
合成画像と実顔画像の両方の実験により,HiFaceGANの優れた性能が確認された。
論文 参考訳(メタデータ) (2020-05-11T11:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。