論文の概要: Towards a Better Understanding of Representation Dynamics under
TD-learning
- arxiv url: http://arxiv.org/abs/2305.18491v1
- Date: Mon, 29 May 2023 13:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:14:36.387894
- Title: Towards a Better Understanding of Representation Dynamics under
TD-learning
- Title(参考訳): td-learningにおける表現ダイナミクスの理解を深める
- Authors: Yunhao Tang, R\'emi Munos
- Abstract要約: TD-learningは、価値予測のための基礎強化学習(RL)アルゴリズムである。
エンドツーエンドのTD学習は、時間とともにどのように表現に影響を与えるのか?
まず、環境が可逆である場合、エンドツーエンドのTD学習が時間とともに値近似誤差を厳密に減少させることを示す。
- 参考スコア(独自算出の注目度): 23.65188248947536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TD-learning is a foundation reinforcement learning (RL) algorithm for value
prediction. Critical to the accuracy of value predictions is the quality of
state representations. In this work, we consider the question: how does
end-to-end TD-learning impact the representation over time? Complementary to
prior work, we provide a set of analysis that sheds further light on the
representation dynamics under TD-learning. We first show that when the
environments are reversible, end-to-end TD-learning strictly decreases the
value approximation error over time. Under further assumptions on the
environments, we can connect the representation dynamics with spectral
decomposition over the transition matrix. This latter finding establishes
fitting multiple value functions from randomly generated rewards as a useful
auxiliary task for representation learning, as we empirically validate on both
tabular and Atari game suites.
- Abstract(参考訳): TD-learningは、価値予測のための基礎強化学習(RL)アルゴリズムである。
値予測の正確性には、状態表現の質が不可欠である。
エンド・ツー・エンドのtd学習は、時間とともに表現にどのように影響するか?
先行研究の補完として、TD学習下での表現力学にさらに光を当てる分析セットを提供する。
まず,環境が可逆である場合,エンドツーエンドtd学習は時間とともに値近似誤差を厳密に減少させることを示した。
環境上のさらなる仮定の下では、表現力学と遷移行列上のスペクトル分解を結びつけることができる。
後者の発見は,表型ゲーム群とatariゲーム群の両方で経験的に検証を行うため,ランダムに生成した報酬から複数の値関数を表現学習の補助タスクとして適合させる。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Multi-Task Self-Supervised Time-Series Representation Learning [3.31490164885582]
時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。
自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。
本稿では,時系列分類,予測,異常検出という3つのダウンストリームタスクの枠組みについて検討する。
論文 参考訳(メタデータ) (2023-03-02T07:44:06Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video
Representation [16.643709221279764]
本稿では,新しいプレテキストタスク-時間的重複率(STOR)予測を提案する。
それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。
我々は、時間的表現学習を強化するために、コントラスト学習を組み合わせた共同作業を採用する。
論文 参考訳(メタデータ) (2021-12-16T14:31:22Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Latent Representation Prediction Networks [0.0]
満足できない表現を学習するこの原則を見いだす。
本稿では,この表現を予測関数とともに学習する新しい方法を提案する。
提案手法は, 標準強化学習法よりもサンプリング効率がよいことを示す。
論文 参考訳(メタデータ) (2020-09-20T14:26:03Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。