論文の概要: Width-Based Planning and Active Learning for Atari
- arxiv url: http://arxiv.org/abs/2109.15310v1
- Date: Thu, 30 Sep 2021 17:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:03:55.592231
- Title: Width-Based Planning and Active Learning for Atari
- Title(参考訳): アタリの幅ベースプランニングとアクティブラーニング
- Authors: Benjamin Ayton, Masataro Asai
- Abstract要約: ビットベースの計画では、Atari 2600のゲームにピクセル入力による有望な結果が示されている。
近年,ゲーム画面上で訓練された手書き機能セットや変分オートエンコーダを用いて,各画面の特徴ベクトルを計算している。
私たちの主な貢献は、計画中に観察される画面の有用性を最大化するアクティブラーニングの導入である。
- 参考スコア(独自算出の注目度): 7.995360025953929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Width-based planning has shown promising results on Atari 2600 games using
pixel input, while using substantially fewer environment interactions than
reinforcement learning. Recent width-based approaches have computed feature
vectors for each screen using a hand designed feature set or a variational
autoencoder (VAE) trained on game screens, and prune screens that do not have
novel features during the search. In this paper, we explore consideration of
uncertainty in features generated by a VAE during width-based planning. Our
primary contribution is the introduction of active learning to maximize the
utility of screens observed during planning. Experimental results demonstrate
that use of active learning strategies increases gameplay scores compared to
alternative width-based approaches with equal numbers of environment
interactions.
- Abstract(参考訳): ワイドベースの計画では,Atari 2600ゲームにおいて,画素入力を用いた場合,強化学習よりも環境相互作用が著しく少ない。
近年のワイドベースアプローチでは,ゲーム画面上でトレーニングされた手書き特徴セットや変分オートエンコーダ(VAE),検索中に新しい特徴を持たないプルースクリーンを用いて,各画面の特徴ベクトルを計算している。
本稿では,VAEの幅計画における特徴の不確実性について考察する。
私たちの主な貢献は、計画中に観察される画面の有用性を最大化するアクティブラーニングの導入である。
実験結果から,アクティブな学習戦略を用いることで,環境相互作用の数に等しい幅に基づくアプローチに比べてゲームプレイスコアが増加することが示された。
関連論文リスト
- Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder [12.310140622800372]
APE:適応事前学習による効率的な強化学習を提案する。
APEは、事前学習期間中に適応的な拡張戦略を使用し、政策学習期間中にタスク環境内でほんのわずかの相互作用しか持たない一般化可能な特徴を抽出する。
その結果、DreamerV3やDrQ-v2といった主流のRL法は、APEを装着すると最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-08T12:57:02Z) - Pretrained Visual Representations in Reinforcement Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-07-24T12:53:26Z) - AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity Recognition [51.24321348668037]
パノラマ活動認識(PAR)は、パノラマシーンにおいて複数の人が行う多粒度行動を特定することを目的としている。
以前の方法は、トレーニングと推論において手動で注釈付き検出ボックスに依存しており、より実用的なデプロイメントを妨げる。
本研究では,パノラマ活動シーンにおける個人,グループ,グローバルな活動を共同で認識するための,適応型バイプロパゲーティング・プロトタイプ学習(AdaFPP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-04T01:53:22Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Deep Latent Competition: Learning to Race Using Visual Control Policies
in Latent Space [63.57289340402389]
Deep Latent Competition (DLC) は、想像力の自己プレイを通じて、競合する視覚制御ポリシーを学ぶ強化学習アルゴリズムである。
想像すると、セルフプレイは現実世界でコストのかかるサンプル生成を削減し、潜在表現は観測次元で計画を優雅にスケールできる。
論文 参考訳(メタデータ) (2021-02-19T09:00:29Z) - Hierarchical Width-Based Planning and Learning [8.776765645845012]
幅に基づく探索手法は、幅広いテストベッドで最先端の性能を実証している。
2つの抽象レベルを計画する階層型アルゴリズムを提案する。
学習方針と学習価値関数を組み合わせることで,提案する階層iwが,atariゲームにおける現在のフラットiwベースのプランナーよりも少ない報酬で勝ることを示す。
論文 参考訳(メタデータ) (2021-01-15T15:37:46Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Planning from Pixels in Atari with Learned Symbolic Representations [3.980114611872348]
幅ベースの計画手法は、アタリ 2600で最先端の性能を発揮することが示されている。
ひとつの成功したアプローチであるRolloutIWは、機能セットを使用してB-PROSTドメインで状態を表す。
RolloutIWの拡張バージョンである$pi$-IWは、学習した機能は幅ベースの検索のための手作りのものと競合できることを示しています。
論文 参考訳(メタデータ) (2020-12-16T18:15:11Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z) - Event-based visual place recognition with ensembles of temporal windows [29.6328152991222]
イベントカメラは、低レイテンシと高レンジで連続的なイベントストリームを提供することができるバイオインスパイアされたセンサーである。
我々は,異なる長さの時間ウィンドウを並列に処理する,アンサンブルに基づく新しい手法を開発した。
提案するアンサンブル方式は, 単ウィンドウベースラインや従来のモデルベースアンサンブルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-22T05:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。