論文の概要: High Performance Across Two Atari Paddle Games Using the Same Perceptual
Control Architecture Without Training
- arxiv url: http://arxiv.org/abs/2108.01895v1
- Date: Wed, 4 Aug 2021 08:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 20:01:53.995862
- Title: High Performance Across Two Atari Paddle Games Using the Same Perceptual
Control Architecture Without Training
- Title(参考訳): トレーニングなしで同じ知覚制御アーキテクチャを用いた2つのアタリパドルゲームにおけるハイパフォーマンス
- Authors: Tauseef Gulrez and Warren Mansell
- Abstract要約: 単純な仮定に基づく知覚制御モデルは、学習せずにうまく機能することを示す。
我々は、心理学的機能とより類似した学習の同義的な役割を特定することで結論付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) requires large samples and a long training
time to operate optimally. Yet humans rarely require long periods training to
perform well on novel tasks, such as computer games, once they are provided
with an accurate program of instructions. We used perceptual control theory
(PCT) to construct a simple closed-loop model which requires no training
samples and training time within a video game study using the Arcade Learning
Environment (ALE). The model was programmed to parse inputs from the
environment into hierarchically organised perceptual signals, and it computed a
dynamic error signal by subtracting the incoming signal for each perceptual
variable from a reference signal to drive output signals to reduce this error.
We tested the same model across two different Atari paddle games Breakout and
Pong to achieve performance at least as high as DRL paradigms, and close to
good human performance. Our study shows that perceptual control models, based
on simple assumptions, can perform well without learning. We conclude by
specifying a parsimonious role of learning that may be more similar to
psychological functioning.
- Abstract(参考訳): 深部強化学習 (DRL) には, 大きなサンプルと長時間のトレーニング時間が必要である。
しかし、コンピュータゲームのような新しいタスクにおいて正確な指示プログラムが提供されると、人間は長い期間の訓練を必要とすることは滅多にない。
pct(perceptual control theory)を用いて,アーケード学習環境(ale)を用いたビデオゲーム学習において,トレーニングサンプルやトレーニング時間の不要な,単純な閉ループモデルを構築した。
このモデルは、環境からの入力を階層的に整理された知覚信号に解析するようにプログラムされ、参照信号から各知覚変数の入力信号を減算して動的エラー信号を計算し、この誤差を低減する。
2つの異なるatariパドルゲームであるbreakoutとpongで同じモデルをテストし、少なくともdrlパラダイム以上のパフォーマンスを達成し、優れた人間のパフォーマンスに近づいた。
本研究は,単純な仮定に基づく知覚制御モデルが学習なしではうまく機能することを示す。
結論として,より心理的機能に類似した学習の役割を規定した。
関連論文リスト
- Learning to Fly in Seconds [8.159171440455824]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。