論文の概要: How do Offline Measures for Exploration in Reinforcement Learning
behave?
- arxiv url: http://arxiv.org/abs/2010.15533v1
- Date: Thu, 29 Oct 2020 12:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:19:12.599975
- Title: How do Offline Measures for Exploration in Reinforcement Learning
behave?
- Title(参考訳): 強化学習における探索のオフライン対策はどのように振る舞うのか?
- Authors: Jakob J. Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo,
Justus Piater
- Abstract要約: 3つのデータベースのオフライン探索メトリクスの振る舞いを比較し、使用時に認識すべき問題を強調します。
第4の計量、相対エントロピーを提案し、k-アネレスト近傍または最も近い近傍一様推定器を用いて実装する。
- 参考スコア(独自算出の注目度): 5.573543601558405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sufficient exploration is paramount for the success of a reinforcement
learning agent. Yet, exploration is rarely assessed in an algorithm-independent
way. We compare the behavior of three data-based, offline exploration metrics
described in the literature on intuitive simple distributions and highlight
problems to be aware of when using them. We propose a fourth metric,uniform
relative entropy, and implement it using either a k-nearest-neighbor or a
nearest-neighbor-ratio estimator, highlighting that the implementation choices
have a profound impact on these measures.
- Abstract(参考訳): 強化学習エージェントの成功には十分な探索が不可欠である。
しかし、探索がアルゴリズムに依存しない方法で評価されることは滅多にない。
文献に記述されている3つのデータに基づくオフライン探索メトリクスの挙動を直感的な単純な分布で比較し、使用時に注意すべき問題を強調する。
第4の計量、一様相対エントロピーを提案し、k-nearest-neighborまたは最も近いneighbor-ratio estimatorを用いて実装し、実装の選択がこれらの測定に重大な影響を与えることを強調する。
関連論文リスト
- Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。
本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文 参考訳(メタデータ) (2021-09-01T02:36:14Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Self-Supervised Metric Learning in Multi-View Data: A Downstream Task
Perspective [2.01243755755303]
マルチビューデータの文脈において,自己教師付きメトリック学習が下流タスクにどのような効果をもたらすかを検討する。
本稿では, 下流タスクにおいて, 目標距離がいくつかの望ましい特性を満たすことを示す。
本分析では,4つの下流タスクにおいて,自己教師付きメトリック学習による改善を特徴付ける。
論文 参考訳(メタデータ) (2021-06-14T02:34:33Z) - Metric Learning for Session-based Recommendations [3.706222947143855]
メトリクス学習のアプローチを一般的な学習からランクへの手法と比較した。
問題分析のための単純なアーキテクチャを提案し,大規模でも深層でも必要ではないことを示す。
論文 参考訳(メタデータ) (2021-01-07T17:51:04Z) - Active Learning for Bayesian 3D Hand Pose Estimation [53.99104862192055]
本稿では3次元ポーズ推定のためのディープラーニングアーキテクチャに対するベイズ近似を提案する。
この枠組みを通じて、データや学習能力に影響される2種類の不確実性を調査し、分析する。
論文 参考訳(メタデータ) (2020-10-01T21:36:26Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - SL-DML: Signal Level Deep Metric Learning for Multimodal One-Shot Action
Recognition [0.0]
埋め込み空間における近接探索に対する行動認識問題を削減するための計量学習手法を提案する。
我々は信号を画像にエンコードし、深い残差CNNを用いて特徴を抽出する。
結果として得られるエンコーダは特徴を埋め込み空間に変換し、より近い距離は類似の動作を符号化し、高い距離は異なる動作を符号化する。
論文 参考訳(メタデータ) (2020-04-23T11:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。