論文の概要: Learning Representations for Pixel-based Control: What Matters and Why?
- arxiv url: http://arxiv.org/abs/2111.07775v1
- Date: Mon, 15 Nov 2021 14:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 23:43:47.366785
- Title: Learning Representations for Pixel-based Control: What Matters and Why?
- Title(参考訳): Pixelベースの制御のための学習表現:何が重要でなぜか?
- Authors: Manan Tomar, Utkarsh A. Mishra, Amy Zhang, Matthew E. Taylor
- Abstract要約: 本稿では,メトリックベースの学習,データ拡張,ワールドモデル学習,コントラスト学習のない,意味のある表現を学習可能な,シンプルなベースラインアプローチを提案する。
この結果から,報酬の密度,課題の計画的地平,課題関連コンポーネントの存在などに基づくベンチマークのより詳細な分類が,アルゴリズムの評価に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 22.177382138487566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning representations for pixel-based control has garnered significant
attention recently in reinforcement learning. A wide range of methods have been
proposed to enable efficient learning, leading to sample complexities similar
to those in the full state setting. However, moving beyond carefully curated
pixel data sets (centered crop, appropriate lighting, clear background, etc.)
remains challenging. In this paper, we adopt a more difficult setting,
incorporating background distractors, as a first step towards addressing this
challenge. We present a simple baseline approach that can learn meaningful
representations with no metric-based learning, no data augmentations, no
world-model learning, and no contrastive learning. We then analyze when and why
previously proposed methods are likely to fail or reduce to the same
performance as the baseline in this harder setting and why we should think
carefully about extending such methods beyond the well curated environments.
Our results show that finer categorization of benchmarks on the basis of
characteristics like density of reward, planning horizon of the problem,
presence of task-irrelevant components, etc., is crucial in evaluating
algorithms. Based on these observations, we propose different metrics to
consider when evaluating an algorithm on benchmark tasks. We hope such a
data-centric view can motivate researchers to rethink representation learning
when investigating how to best apply RL to real-world tasks.
- Abstract(参考訳): 画素ベース制御のための学習表現は近年,強化学習において大きな注目を集めている。
効率的な学習を可能にするための幅広い手法が提案され、完全な状態設定の手法と同様の複雑なサンプルが得られる。
しかし、慎重にキュレートされたピクセルデータセット(中央の作物、適切な照明、背景の鮮明さなど)を超えて移動することはまだ難しい。
本稿では,この課題に取り組むための第一歩として,背景の気晴らしを取り入れ,より難しい設定を採用する。
本稿では,メトリックベースの学習,データ拡張,ワールドモデル学習,コントラスト学習のない,意味のある表現を学習できるシンプルなベースラインアプローチを提案する。
そして、これまで提案されていた手法が、この厳しい環境でベースラインと同等の性能に失敗したり、低下する可能性がある理由と、そのような手法を十分にキュレートされた環境を超えて拡張することを慎重に考えるべき理由を分析します。
この結果から,報酬の密度,課題の計画的地平,課題関連コンポーネントの存在などに基づくベンチマークのより詳細な分類が,アルゴリズムの評価に不可欠であることが示唆された。
これらの結果に基づき,ベンチマークタスクでアルゴリズムを評価する際に考慮すべき異なる指標を提案する。
このようなデータ中心の視点が、RLを現実世界のタスクに最適な適用方法を研究する際に、表現学習を再考する動機になることを期待しています。
関連論文リスト
- Robust compressive tracking via online weighted multiple instance learning [0.6813925418351435]
本稿では,スパース表現と重み付きマルチインスタンス学習(WMIL)アルゴリズムに基づく粗い検索戦略を統合することで,ビジュアルオブジェクト追跡アルゴリズムを提案する。
提案手法は,他のトラッカーと比較して,粗大な探索法によりより複雑度が低く,重要なサンプルの重み付けも可能である。
論文 参考訳(メタデータ) (2024-06-14T10:48:17Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Point Discriminative Learning for Unsupervised Representation Learning
on 3D Point Clouds [54.31515001741987]
3次元点雲上での教師なし表現学習のための点識別学習法を提案する。
我々は、中間レベルとグローバルレベルの特徴に新しい点識別損失を課すことにより、これを達成した。
提案手法は強力な表現を学習し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-04T15:11:48Z) - A survey of active learning algorithms for supervised remote sensing
image classification [5.384800591054857]
効率的なトレーニングセットを定義することは、リモートセンシングイメージ分類ルーチンの成功の最も繊細なフェーズの1つです。
アクティブラーニングは、サンプリングを通じてモデルのパフォーマンスを反復的に改善することで、効率的なトレーニングセットの構築を目指しています。
本稿では、アクティブ学習アルゴリズムの主なファミリであるコミッション、大きなマージン、後方確率ベースをレビューおよびテストする。
論文 参考訳(メタデータ) (2021-04-15T21:36:59Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Weakly Supervised Representation Learning with Coarse Labels [29.67549798642795]
ディープラーニングは、原材料から直接タスク依存の方法で識別パターンを学習することができる。
現実のアプリケーションでは、オンラインショッピングにおけるビジュアル検索など、タスク固有のラベルを収集するには高すぎる。
粗いクラスラベルのみを利用できる場合に,対象タスクのきめ細かいパターンを学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-19T18:05:20Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。