論文の概要: Unsupervised Representation Learning in Partially Observable Atari Games
- arxiv url: http://arxiv.org/abs/2303.07437v1
- Date: Mon, 13 Mar 2023 19:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:29:07.057860
- Title: Unsupervised Representation Learning in Partially Observable Atari Games
- Title(参考訳): 部分観測可能なアタリゲームにおける教師なし表現学習
- Authors: Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad
- Abstract要約: 状態表現学習は、環境の潜伏要因を捉えることを目的としている。
コントラスト法は,従来の状態表現学習研究において,生成モデルよりも優れていた。
本稿では、部分的に観測可能な状態に対する教師なし状態表現学習スキームを作成する。
- 参考スコア(独自算出の注目度): 10.299850596045395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State representation learning aims to capture latent factors of an
environment. Contrastive methods have performed better than generative models
in previous state representation learning research. Although some researchers
realize the connections between masked image modeling and contrastive
representation learning, the effort is focused on using masks as an
augmentation technique to represent the latent generative factors better.
Partially observable environments in reinforcement learning have not yet been
carefully studied using unsupervised state representation learning methods.
In this article, we create an unsupervised state representation learning
scheme for partially observable states. We conducted our experiment on a
previous Atari 2600 framework designed to evaluate representation learning
models. A contrastive method called Spatiotemporal DeepInfomax (ST-DIM) has
shown state-of-the-art performance on this benchmark but remains inferior to
its supervised counterpart. Our approach improves ST-DIM when the environment
is not fully observable and achieves higher F1 scores and accuracy scores than
the supervised learning counterpart. The mean accuracy score averaged over
categories of our approach is ~66%, compared to ~38% of supervised learning.
The mean F1 score is ~64% to ~33%.
- Abstract(参考訳): 状態表現学習は、環境の潜在要因を捉えることを目的としている。
コントラスト法は、前回の状態表現学習研究において生成モデルよりも優れている。
一部の研究者は、マスク画像モデリングと対比表現学習の関連性を認識しているが、この取り組みは、潜在的な生成要因をよりよく表現するための拡張技術としてマスクを使うことに焦点をあてている。
強化学習における部分的に観察可能な環境は、教師なしの状態表現学習法を用いて慎重に研究されていない。
本稿では,部分可観測状態に対する教師なし状態表現学習スキームを作成する。
表現学習モデルの評価を目的とした,Atari 2600フレームワークの実験を行った。
Spatiotemporal DeepInfomax(ST-DIM)と呼ばれる対照的な手法は、このベンチマークで最先端のパフォーマンスを示しているが、監督対象よりも劣っている。
本手法は, 環境が十分に観察できない場合にST-DIMを改良し, 教師付き学習よりも高いF1スコアと精度のスコアを得る。
私たちのアプローチの平均正確度スコアは、教師付き学習の約38%に対して、平均66%です。
F1の平均スコアは64%から33%である。
関連論文リスト
- HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Few-Shot Classification with Contrastive Learning [10.236150550121163]
両段階に比較学習をシームレスに統合する,新しいコントラスト学習ベースのフレームワークを提案する。
メタトレーニングの段階において,同エピソードの2つの異なる視点から最寄りのセントロイド分類を行うための,クロスビュー・エピソード・トレーニング機構を提案する。
これらの2つの戦略は、ビュー間のバイアスを克服し、表現の転送可能性を促進するようモデルに強制する。
論文 参考訳(メタデータ) (2022-09-17T02:39:09Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。