論文の概要: A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning
- arxiv url: http://arxiv.org/abs/2111.11485v1
- Date: Mon, 22 Nov 2021 19:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:04:36.117269
- Title: A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning
- Title(参考訳): 騒音からのフリーランチ:表現学習のための確率的かつ実践的な探索
- Authors: Tongzheng Ren, Tianjun Zhang, Csaba Szepesv\'ari, Bo Dai
- Abstract要約: ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
- 参考スコア(独自算出の注目度): 55.048010996144036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning lies at the heart of the empirical success of deep
learning for dealing with the curse of dimensionality. However, the power of
representation learning has not been fully exploited yet in reinforcement
learning (RL), due to i), the trade-off between expressiveness and
tractability; and ii), the coupling between exploration and representation
learning. In this paper, we first reveal the fact that under some noise
assumption in the stochastic control model, we can obtain the linear spectral
feature of its corresponding Markov transition operator in closed-form for
free. Based on this observation, we propose Spectral Dynamics Embedding
(SPEDE), which breaks the trade-off and completes optimistic exploration for
representation learning by exploiting the structure of the noise. We provide
rigorous theoretical analysis of SPEDE, and demonstrate the practical superior
performance over the existing state-of-the-art empirical algorithms on several
benchmarks.
- Abstract(参考訳): 表現学習は、次元の呪いに対処する深層学習の実証的な成功の核心にある。
しかし、表現学習の力は強化学習(RL)においてまだ十分に活用されていない。
一 表現力と忍耐力とのトレードオフ
二) 探索と表現学習の結合について。
本稿では, 確率制御モデルにおける雑音仮定の下では, 対応するマルコフ遷移作用素の線形スペクトル特徴を閉形式で自由に得ることができることを最初に明らかにする。
本研究は, スペクトルダイナミクス埋め込み (SPEDE) を提案する。これはトレードオフを破り, 雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
我々はSPEDEの厳密な理論的解析を行い、いくつかのベンチマークで既存の最先端実証アルゴリズムよりも実用的な性能を示す。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Adversarial Imitation Learning from Visual Observations using Latent Information [9.240917262195046]
視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。
本研究では,非政治的敵対的模倣手法とエージェントの状態を観察シーケンスから学習した潜在的表現を組み合わせ,Relatnt Adversarial from Observationsというアルゴリズムを導入する。
高次元連続ロボットタスクの実験では、潜在空間におけるモデルフリーアプローチが最先端の性能と一致していることが示されている。
論文 参考訳(メタデータ) (2023-09-29T16:20:36Z) - Spectal Harmonics: Bridging Spectral Embedding and Matrix Completion in
Self-Supervised Learning [6.5151694672131875]
自己監督的手法は、ラベルの形で明らかに監督されることなくデータのセマンティクスを尊重する学習表現に対する、一見したところのアプローチによって、大きな注目を集めた。
現代自己監督的表現学習法で使われる損失の動物園の作業について、一貫性があり理論的に根拠づけられた理解を構築する試みとして、成長する文献が既に出版されている。
論文 参考訳(メタデータ) (2023-05-31T13:02:06Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Task-Free Continual Learning via Online Discrepancy Distance Learning [11.540150938141034]
本稿では,来訪したサンプルとモデルトレーニングに利用可能な情報全体との差分距離に基づく一般化境界を提供する,新しい理論解析フレームワークを開発する。
この理論モデルに着想を得て,混合モデルに対する動的成分展開機構,すなわちオンライン離散距離学習(ODDL)によって実現された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-12T20:44:09Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。