論文の概要: High Performance Across Two Atari Paddle Games Using the Same Perceptual
Control Architecture Without Training
- arxiv url: http://arxiv.org/abs/2108.01895v1
- Date: Wed, 4 Aug 2021 08:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 20:01:53.995862
- Title: High Performance Across Two Atari Paddle Games Using the Same Perceptual
Control Architecture Without Training
- Title(参考訳): トレーニングなしで同じ知覚制御アーキテクチャを用いた2つのアタリパドルゲームにおけるハイパフォーマンス
- Authors: Tauseef Gulrez and Warren Mansell
- Abstract要約: 単純な仮定に基づく知覚制御モデルは、学習せずにうまく機能することを示す。
我々は、心理学的機能とより類似した学習の同義的な役割を特定することで結論付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) requires large samples and a long training
time to operate optimally. Yet humans rarely require long periods training to
perform well on novel tasks, such as computer games, once they are provided
with an accurate program of instructions. We used perceptual control theory
(PCT) to construct a simple closed-loop model which requires no training
samples and training time within a video game study using the Arcade Learning
Environment (ALE). The model was programmed to parse inputs from the
environment into hierarchically organised perceptual signals, and it computed a
dynamic error signal by subtracting the incoming signal for each perceptual
variable from a reference signal to drive output signals to reduce this error.
We tested the same model across two different Atari paddle games Breakout and
Pong to achieve performance at least as high as DRL paradigms, and close to
good human performance. Our study shows that perceptual control models, based
on simple assumptions, can perform well without learning. We conclude by
specifying a parsimonious role of learning that may be more similar to
psychological functioning.
- Abstract(参考訳): 深部強化学習 (DRL) には, 大きなサンプルと長時間のトレーニング時間が必要である。
しかし、コンピュータゲームのような新しいタスクにおいて正確な指示プログラムが提供されると、人間は長い期間の訓練を必要とすることは滅多にない。
pct(perceptual control theory)を用いて,アーケード学習環境(ale)を用いたビデオゲーム学習において,トレーニングサンプルやトレーニング時間の不要な,単純な閉ループモデルを構築した。
このモデルは、環境からの入力を階層的に整理された知覚信号に解析するようにプログラムされ、参照信号から各知覚変数の入力信号を減算して動的エラー信号を計算し、この誤差を低減する。
2つの異なるatariパドルゲームであるbreakoutとpongで同じモデルをテストし、少なくともdrlパラダイム以上のパフォーマンスを達成し、優れた人間のパフォーマンスに近づいた。
本研究は,単純な仮定に基づく知覚制御モデルが学習なしではうまく機能することを示す。
結論として,より心理的機能に類似した学習の役割を規定した。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。