論文の概要: Accounting for the Sequential Nature of States to Learn Features for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.06000v1
- Date: Thu, 12 May 2022 10:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:09:52.732214
- Title: Accounting for the Sequential Nature of States to Learn Features for
Reinforcement Learning
- Title(参考訳): 強化学習のための特徴学習のための国家の逐次的性質の会計
- Authors: Nathan Michlo, Devon Jarvis, Richard Klein, Steven James
- Abstract要約: 一般的な表現学習手法が失敗する原因となるデータの特性について検討する。
特に、状態が著しく重複しない環境では、可変オートエンコーダ(VAE)は有用な特徴を学習できない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
- 参考スコア(独自算出の注目度): 2.0646127669654826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the properties of data that cause popular
representation learning approaches to fail. In particular, we find that in
environments where states do not significantly overlap, variational
autoencoders (VAEs) fail to learn useful features. We demonstrate this failure
in a simple gridworld domain, and then provide a solution in the form of metric
learning. However, metric learning requires supervision in the form of a
distance function, which is absent in reinforcement learning. To overcome this,
we leverage the sequential nature of states in a replay buffer to approximate a
distance metric and provide a weak supervision signal, under the assumption
that temporally close states are also semantically similar. We modify a VAE
with triplet loss and demonstrate that this approach is able to learn useful
features for downstream tasks, without additional supervision, in environments
where standard VAEs fail.
- Abstract(参考訳): 本研究では,一般的な表現学習アプローチが失敗するデータの性質について検討する。
特に、状態が著しく重複しない環境では、変分オートエンコーダ(vaes)は有用な機能を学ぶことができない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
しかし、メートル法学習は強化学習に欠けている距離関数の形での監督を必要とする。
これを克服するために,リプレイバッファ内の状態の逐次的性質を利用して距離メトリックを近似し,時間的近接状態も意味的に類似しているという仮定の下で,弱い監督信号を与える。
VAEをトリプルトロスで修正し、標準的なVAEが失敗する環境では、追加の監督なしに、下流タスクの有用な機能を学習できることを実証する。
関連論文リスト
- Gradient Boosting Mapping for Dimensionality Reduction and Feature Extraction [2.778647101651566]
教師あり学習における根本的な問題は、優れた特徴や距離尺度を見つけることである。
本稿では,弱い学習者の出力が埋め込みを定義する,教師付き次元削減手法を提案する。
組込み座標は教師付き学習タスクにより良い機能を提供することを示す。
論文 参考訳(メタデータ) (2024-05-14T10:23:57Z) - Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
この信頼性は、高次元の作用空間における状態-作用値関数の維持が困難なデータ非効率をもたらす。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - On the Importance of Feature Decorrelation for Unsupervised
Representation Learning in Reinforcement Learning [23.876039876806182]
教師なし表現学習(URL)は強化学習(RL)のサンプル効率を改善した
本稿では,潜在多様体の次元を増大させつつ,将来の状態を因果的に予測する新しいURLフレームワークを提案する。
本フレームワークは,Atari 100kベンチマークにおける最先端URL手法のサンプル効率を大幅に向上させるため,崩壊のない予測表現を効果的に学習する。
論文 参考訳(メタデータ) (2023-06-09T02:47:21Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation [3.5092955099876266]
視覚的障害の存在下での視覚入力からの一般化可能なポリシの学習は、強化学習において難しい問題である。
そこで本研究では,状態間の距離関数を指定可能なビシミュレーション・メトリックであるエンタングルド・ビシミュレーションを提案する。
本稿では,Distracting Control Suite (DCS) における従来の手法に比べて,絡み合ったバイシミュレーションが有意に改善可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:06:06Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。