論文の概要: Accounting for the Sequential Nature of States to Learn Features for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.06000v1
- Date: Thu, 12 May 2022 10:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:09:52.732214
- Title: Accounting for the Sequential Nature of States to Learn Features for
Reinforcement Learning
- Title(参考訳): 強化学習のための特徴学習のための国家の逐次的性質の会計
- Authors: Nathan Michlo, Devon Jarvis, Richard Klein, Steven James
- Abstract要約: 一般的な表現学習手法が失敗する原因となるデータの特性について検討する。
特に、状態が著しく重複しない環境では、可変オートエンコーダ(VAE)は有用な特徴を学習できない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
- 参考スコア(独自算出の注目度): 2.0646127669654826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the properties of data that cause popular
representation learning approaches to fail. In particular, we find that in
environments where states do not significantly overlap, variational
autoencoders (VAEs) fail to learn useful features. We demonstrate this failure
in a simple gridworld domain, and then provide a solution in the form of metric
learning. However, metric learning requires supervision in the form of a
distance function, which is absent in reinforcement learning. To overcome this,
we leverage the sequential nature of states in a replay buffer to approximate a
distance metric and provide a weak supervision signal, under the assumption
that temporally close states are also semantically similar. We modify a VAE
with triplet loss and demonstrate that this approach is able to learn useful
features for downstream tasks, without additional supervision, in environments
where standard VAEs fail.
- Abstract(参考訳): 本研究では,一般的な表現学習アプローチが失敗するデータの性質について検討する。
特に、状態が著しく重複しない環境では、変分オートエンコーダ(vaes)は有用な機能を学ぶことができない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
しかし、メートル法学習は強化学習に欠けている距離関数の形での監督を必要とする。
これを克服するために,リプレイバッファ内の状態の逐次的性質を利用して距離メトリックを近似し,時間的近接状態も意味的に類似しているという仮定の下で,弱い監督信号を与える。
VAEをトリプルトロスで修正し、標準的なVAEが失敗する環境では、追加の監督なしに、下流タスクの有用な機能を学習できることを実証する。
関連論文リスト
- The Challenges of Continuous Self-Supervised Learning [40.941767578622745]
自己教師付き学習(SSL)は、表現学習における主要なボトルネックの1つ、すなわち人間のアノテーションの必要性を取り除くことを目的としている。
このような連続的なセットアップに対する現在の手法の直接的な適用は、計算量と必要なデータ量の両方において非効率であることを示す。
本稿では,非効率性や時間的相関の問題を緩和する手法として,リプレイバッファの利用を提案する。
論文 参考訳(メタデータ) (2022-03-23T20:05:06Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation [3.5092955099876266]
視覚的障害の存在下での視覚入力からの一般化可能なポリシの学習は、強化学習において難しい問題である。
そこで本研究では,状態間の距離関数を指定可能なビシミュレーション・メトリックであるエンタングルド・ビシミュレーションを提案する。
本稿では,Distracting Control Suite (DCS) における従来の手法に比べて,絡み合ったバイシミュレーションが有意に改善可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:06:06Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z) - Residual-Guided Learning Representation for Self-Supervised Monocular
Depth Estimation [33.18012120187014]
光度整合損失は、自己教師付き単眼深度推定によく用いられる代表的目的関数の1つである。
近年の自己教師型学習手法は,オートエンコーダから明示的に学習した特徴表現を活用することでこの問題に対処している。
自己符号化された特徴の識別性を伝達することにより、深度推定ネットワークが識別特徴を埋め込むことができる残留誘導損失を提案する。
論文 参考訳(メタデータ) (2021-11-08T07:44:31Z) - Weakly Supervised Person Search with Region Siamese Networks [65.76237418040071]
教師付き学習は人検索において支配的であるが、境界ボックスとアイデンティティの詳細なラベル付けが必要である。
私たちは、バウンディングボックスアノテーションのみが利用できる弱い教師付き設定を提示します。
我々のモデルはCUHK-SYSUベンチマークで87.1%のランク1と86.0%のmAPを達成している。
論文 参考訳(メタデータ) (2021-09-13T16:33:27Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - Disambiguation of weak supervision with exponential convergence rates [88.99819200562784]
教師付き学習では、データは不完全で差別的な情報で注釈付けされる。
本稿では,ある入力から潜在的な対象のセットが与えられる弱い監督の事例である部分的ラベリングに焦点を当てる。
弱い監督から完全な監督を回復する実証的曖昧化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-04T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。