論文の概要: Learning to Perceive in Deep Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.03730v1
- Date: Tue, 10 Jan 2023 00:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:18:32.161453
- Title: Learning to Perceive in Deep Model-Free Reinforcement Learning
- Title(参考訳): 深層モデルフリー強化学習における知覚学習
- Authors: Gon\c{c}alo Querido, Alberto Sardinha, Francisco Melo
- Abstract要約: 本研究は、入力観察の一部にのみアクセス可能な未知のタスクの完了方法を学ぶことができる、新しいモデルフリー強化学習(RL)エージェントを提案する。
我々は、人間の特徴である視覚的注意と能動的知覚の概念からインスピレーションを得て、エージェントにそれらを適用しようとした。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a novel model-free Reinforcement Learning (RL) agent that
is able to learn how to complete an unknown task having access to only a part
of the input observation. We take inspiration from the concepts of visual
attention and active perception that are characteristic of humans and tried to
apply them to our agent, creating a hard attention mechanism. In this
mechanism, the model decides first which region of the input image it should
look at, and only after that it has access to the pixels of that region.
Current RL agents do not follow this principle and we have not seen these
mechanisms applied to the same purpose as this work. In our architecture, we
adapt an existing model called recurrent attention model (RAM) and combine it
with the proximal policy optimization (PPO) algorithm. We investigate whether a
model with these characteristics is capable of achieving similar performance to
state-of-the-art model-free RL agents that access the full input observation.
This analysis is made in two Atari games, Pong and SpaceInvaders, which have a
discrete action space, and in CarRacing, which has a continuous action space.
Besides assessing its performance, we also analyze the movement of the
attention of our model and compare it with what would be an example of the
human behavior. Even with such visual limitation, we show that our model
matches the performance of PPO+LSTM in two of the three games tested.
- Abstract(参考訳): 本研究は、入力観察の一部にのみアクセス可能な未知のタスクの完了方法を学ぶことができる、新しいモデルフリー強化学習(RL)エージェントを提案する。
我々は、人間の特徴である視覚的注意と能動的知覚の概念からインスピレーションを得て、エージェントにそれらを適用しようとした。
このメカニズムでは、モデルはまず入力画像のどの領域を見るべきかを決定し、その後にその領域のピクセルにアクセスする。
現在のRLエージェントはこの原則に従わず、これらのメカニズムが本研究と同じ目的に適用されるのを見たことがない。
私たちのアーキテクチャでは、リカレント・アテンション・モデル(ram)と呼ばれる既存のモデルに適応させ、ppo(proximal policy optimization)アルゴリズムと組み合わせます。
これらの特徴を持つモデルが、完全な入力観測にアクセスできる最先端のモデルフリーRLエージェントと同等の性能を達成できるかどうかを考察する。
この分析は、離散的なアクション空間を持つPongとSpaceInvadersと、連続的なアクション空間を持つCarRacingの2つのAtariゲームで行われている。
その性能を評価することに加えて、モデルの注意の動きを分析し、人間の行動の例であるものと比較する。
このような視覚的制限があっても、テストされた3つのゲームのうち2つのPPO+LSTMの性能に一致していることを示す。
関連論文リスト
- SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z) - A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an
FPGA Implementation [1.2387676601792899]
本稿では, プロトオブジェクトの概念に基づくニューロモルフィック, ボトムアップ, ダイナミックビジュアル・サリエンシ・モデルを提案する。
このモデルは、一般的に使用されるビデオデータセット上で人間の目の固定を予測する際に、最先端のダイナミック・ビジュアル・サリエンシ・モデルより優れている。
我々は、Opal Kelly 7350 Kintex-7ボード上で、フィールドプログラマブルゲートアレイによるモデルの実装を紹介する。
論文 参考訳(メタデータ) (2020-02-27T03:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。