論文の概要: Image Augmentation Based Momentum Memory Intrinsic Reward for Sparse
Reward Visual Scenes
- arxiv url: http://arxiv.org/abs/2205.09448v1
- Date: Thu, 19 May 2022 10:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:05:02.103721
- Title: Image Augmentation Based Momentum Memory Intrinsic Reward for Sparse
Reward Visual Scenes
- Title(参考訳): Sparse Reward Visual Scene のための画像強化に基づくモーメント記憶固有のリワード
- Authors: Zheng Fang, Biao Zhao, Guizhong Liu
- Abstract要約: 実生活における多くのシーンは、エージェントがタスクに取り組むのが困難な、まばらな報酬の視覚シーンに抽象化することができる。
本稿では,この問題を視覚表現とスパース報酬という2つのサブプロブレムに分解することを提案する。
視覚表現では、画像強化されたフォワードダイナミクスと報酬の組合せによって駆動される表現を取得する。
スパース報酬のために、新しいタイプの内因性報酬、 Momentum Memory Intrinsic Reward (MMIR) がデザインされる。
- 参考スコア(独自算出の注目度): 10.595970476434113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many scenes in real life can be abstracted to the sparse reward visual
scenes, where it is difficult for an agent to tackle the task under the
condition of only accepting images and sparse rewards. We propose to decompose
this problem into two sub-problems: the visual representation and the sparse
reward. To address them, a novel framework IAMMIR combining the self-supervised
representation learning with the intrinsic motivation is presented. For visual
representation, a representation driven by a combination of the imageaugmented
forward dynamics and the reward is acquired. For sparse rewards, a new type of
intrinsic reward is designed, the Momentum Memory Intrinsic Reward (MMIR). It
utilizes the difference of the outputs from the current model (online network)
and the historical model (target network) to present the agent's state
familiarity. Our method is evaluated on the visual navigation task with sparse
rewards in Vizdoom. Experiments demonstrate that our method achieves the state
of the art performance in sample efficiency, at least 2 times faster than the
existing methods reaching 100% success rate.
- Abstract(参考訳): 実生活における多くのシーンは、スパース報酬の視覚シーンに抽象化することができ、エージェントがイメージとスパース報酬のみを受け入れるという条件下でタスクに取り組むことは困難である。
我々はこの問題を視覚的表現とスパース報酬という2つのサブ問題に分割することを提案する。
そこで本研究では,自己指導型表現学習と本質的なモチベーションを組み合わせた新しいフレームワークIAMMIRを提案する。
視覚表現では、画像強化されたフォワードダイナミクスと報酬の組合せによって駆動される表現を取得する。
スパース報酬には、新しいタイプの内因性報酬、Momentum Memory Intrinsic Reward (MMIR)が設計されている。
現在のモデル(オンラインネットワーク)と過去のモデル(ターゲットネットワーク)からの出力の差を利用してエージェントの状態の親しみを提示する。
本手法はvizdoomの視覚的ナビゲーションタスクにおいてスパース報酬を用いて評価する。
実験により,本手法は,既存の手法の100%成功率の少なくとも2倍の精度で,試料効率で技術性能を達成できることを示した。
関連論文リスト
- SplatR : Experience Goal Visual Rearrangement with 3D Gaussian Splatting and Dense Feature Matching [0.979851640406258]
本稿では,3次元ガウシアン・スプラッティングを3次元シーン表現として活用した新しいフレームワークを提案する。
提案手法により,エージェントは,アレンジメントタスクの現在と目標設定を一貫した視点で把握することができる。
我々は,AI2-THOR再構成チャレンジベンチマークに対するアプローチを検証するとともに,現在の技術手法に対する改善を実証する。
論文 参考訳(メタデータ) (2024-11-21T17:12:47Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Visual Imitation Learning with Patch Rewards [86.69095240683782]
Patch Rewards (PatchAIL) を用いた逆学習を提案する。
PatchAILは、パッチベースの識別器を使用して、与えられた画像から異なるローカル部分の専門知識を測定し、パッチ報酬を提供する。
我々はDeepMind Control SuiteとAtariタスクについて評価を行った。
論文 参考訳(メタデータ) (2023-02-02T09:13:10Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。