論文の概要: Reward-Predictive Clustering
- arxiv url: http://arxiv.org/abs/2211.03281v1
- Date: Mon, 7 Nov 2022 03:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:52:05.624027
- Title: Reward-Predictive Clustering
- Title(参考訳): 逆予測クラスタリング
- Authors: Lucas Lehnert, Michael J. Frank, Michael L. Littman
- Abstract要約: ディープラーニング設定への報酬予測状態抽象化の適用を可能にするクラスタリングアルゴリズムを提供する。
収束定理とシミュレーションは、結果として生じる報酬予測深いネットワークがエージェントの入力を最大に圧縮することを示している。
- 参考スコア(独自算出の注目度): 20.82575016038573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement-learning research have demonstrated
impressive results in building algorithms that can out-perform humans in
complex tasks. Nevertheless, creating reinforcement-learning systems that can
build abstractions of their experience to accelerate learning in new contexts
still remains an active area of research. Previous work showed that
reward-predictive state abstractions fulfill this goal, but have only be
applied to tabular settings. Here, we provide a clustering algorithm that
enables the application of such state abstractions to deep learning settings,
providing compressed representations of an agent's inputs that preserve the
ability to predict sequences of reward. A convergence theorem and simulations
show that the resulting reward-predictive deep network maximally compresses the
agent's inputs, significantly speeding up learning in high dimensional visual
control tasks. Furthermore, we present different generalization experiments and
analyze under which conditions a pre-trained reward-predictive representation
network can be re-used without re-training to accelerate learning -- a form of
systematic out-of-distribution transfer.
- Abstract(参考訳): 強化学習研究の最近の進歩は、複雑なタスクで人間より優れるアルゴリズムの構築において印象的な結果を示している。
それでも、新たなコンテキストでの学習を加速するために、経験の抽象化を構築するための強化学習システムの構築は、依然として活発な研究領域である。
これまでの研究では、報酬予測状態の抽象化がこの目標を達成できたが、表の設定にのみ適用できた。
そこで我々は,このような状態抽象化をディープラーニング設定に適用可能なクラスタリングアルゴリズムを提案し,エージェントの入力の圧縮表現を提供することにより,報酬の列を予測できることを示す。
収束定理とシミュレーションにより、結果の報酬予測深いネットワークはエージェントの入力を最大に圧縮し、高次元視覚制御タスクにおける学習を著しく高速化することを示した。
さらに, 学習を加速させることなく, 事前学習した報酬予測表現ネットワークを再利用できる条件について, 異なる一般化実験を行い, 分析を行った。
関連論文リスト
- Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better
Generalization in Reinforcement Learning [88.38772200150387]
Skipperは、タスク時間を利用して、新しい状況下でスキルを学ぶモデルベースの強化学習エージェントである。
与えられたものをより小さく、より管理しやすいサブタスクに自動的に一般化し、スパースな意思決定を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Proto-Value Networks: Scaling Representation Learning with Auxiliary
Tasks [33.98624423578388]
補助的なタスクは、深層強化学習エージェントによって学習された表現を改善する。
我々は、後継措置に基づく新しい補助業務のファミリーを導出する。
プロト値ネットワークは、確立されたアルゴリズムに匹敵する性能を得るために、リッチな特徴を生み出すことを示す。
論文 参考訳(メタデータ) (2023-04-25T04:25:08Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Network Classifiers Based on Social Learning [71.86764107527812]
空間と時間に対して独立に訓練された分類器を結合する新しい手法を提案する。
提案したアーキテクチャは、ラベルのないデータで時間とともに予測性能を改善することができる。
この戦略は高い確率で一貫した学習をもたらすことが示され、未訓練の分類器に対して頑健な構造が得られる。
論文 参考訳(メタデータ) (2020-10-23T11:18:20Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。