論文の概要: Large-Scale Retrieval for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.05314v1
- Date: Fri, 10 Jun 2022 18:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 14:29:38.969923
- Title: Large-Scale Retrieval for Reinforcement Learning
- Title(参考訳): 強化学習のための大規模検索
- Authors: Peter C. Humphreys, Arthur Guez, Olivier Tieleman, Laurent Sifre,
Th\'eophane Weber, Timothy Lillicrap
- Abstract要約: 強化学習において、支配的なパラダイムは、エージェントが決定をネットワークの重みに導くのに役立つ情報を修復することである。
ここでは,エージェントが大規模コンテキスト依存型データベースのルックアップを利用してパラメトリック計算を支援する方法を提案する。
- 参考スコア(独自算出の注目度): 15.372742113152233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective decision making involves flexibly relating past experiences and
relevant contextual information to a novel situation. In deep reinforcement
learning, the dominant paradigm is for an agent to amortise information that
helps decision-making into its network weights via gradient descent on training
losses. Here, we pursue an alternative approach in which agents can utilise
large-scale context-sensitive database lookups to support their parametric
computations. This allows agents to directly learn in an end-to-end manner to
utilise relevant information to inform their outputs. In addition, new
information can be attended to by the agent, without retraining, by simply
augmenting the retrieval dataset. We study this approach in Go, a challenging
game for which the vast combinatorial state space privileges generalisation
over direct matching to past experiences. We leverage fast, approximate nearest
neighbor techniques in order to retrieve relevant data from a set of tens of
millions of expert demonstration states. Attending to this information provides
a significant boost to prediction accuracy and game-play performance over
simply using these demonstrations as training trajectories, providing a
compelling demonstration of the value of large-scale retrieval in reinforcement
learning agents.
- Abstract(参考訳): 効果的な意思決定は、過去の経験と関連する文脈情報を新しい状況に柔軟に関連付ける。
深層強化学習においては、エージェントがトレーニング損失に対する勾配降下によるネットワーク重みの決定を支援する情報を改善することが主流のパラダイムである。
本稿では,エージェントがパラメトリック計算をサポートするために,大規模コンテキストセンシティブなデータベースルックアップを活用できる代替手法を追求する。
これにより、エージェントはエンドツーエンドで直接学習し、関連する情報を利用して出力を知らせることができる。
さらに、検索データセットを単に増やすことで、再トレーニングすることなく、エージェントが新しい情報に参加することができる。
我々はこのアプローチを,過去の経験と直接マッチングすることよりも,広大なコンビネート状態空間が一般化する,挑戦的なゲームであるgoで研究する。
我々は、何千万もの専門家の実証状態から関連するデータを取得するために、高速で近似した近接技術を利用する。
この情報に従えば、これらのデモンストレーションをトレーニングトラジェクトリとして単に使用することよりも予測精度とゲームプレイのパフォーマンスが大幅に向上し、強化学習エージェントにおける大規模検索の価値の説得力のある実証を提供する。
関連論文リスト
- Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Membership Inference Attacks via Adversarial Examples [5.721380617450644]
会員推論攻撃は、学習アルゴリズムが使用するトレーニングデータの回復を目的とした研究の新たな方向である。
本研究では,トレーニングモデルの総変動のプロキシとして現れる量を利用して,トレーニングデータの漏洩を測定する手段を開発する。
論文 参考訳(メタデータ) (2022-07-27T15:10:57Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - Adversarial Training Helps Transfer Learning via Better Representations [17.497590668804055]
Transfer Learningは、ソースデータに事前トレーニングされたモデルを活用して、ターゲット設定に効率的に適応することを目的としている。
最近の研究は、情報源データにおける敵対的訓練が、新しいドメインへのモデル転送能力を向上させることを実証的に実証している。
本研究は, 情報源データにおける対角的学習により, より優れた表現が生成されることを示し, この表現を微調整することで, 対象データのより正確な予測が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:41:07Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Self-Supervised Contrastive Learning for Efficient User Satisfaction
Prediction in Conversational Agents [35.2098736872247]
ユーザとエージェントのインタラクションを学習するための,自己指導型コントラスト学習手法を提案する。
自己教師対象を用いた事前学習モデルは,ユーザ満足度予測に転送可能であることを示す。
また、非常に小さなサンプルサイズに対して、より優れた転送性を確保するために、新しい数発の転送学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T18:10:58Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。