Fugu-MT 論文翻訳(概要): Understanding Self-Predictive Learning for Reinforcement Learning

論文の概要: Understanding Self-Predictive Learning for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2212.03319v1
Date: Tue, 6 Dec 2022 20:43:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 15:13:19.131079
Title: Understanding Self-Predictive Learning for Reinforcement Learning
Title（参考訳）: 強化学習のための自己予測学習の理解
Authors: Yunhao Tang, Zhaohan Daniel Guo, Pierre Harvey Richemond, Bernardo \'Avila Pires, Yash Chandak, R\'emi Munos, Mark Rowland, Mohammad Gheshlaghi Azar, Charline Le Lan, Clare Lyle, Andr\'as Gy\"orgy, Shantanu Thakoor, Will Dabney, Bilal Piot, Daniele Calandriello, Michal Valko
Abstract要約: 強化学習のための自己予測学習の学習ダイナミクスについて検討する。本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 61.62067048348786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the learning dynamics of self-predictive learning for reinforcement learning, a family of algorithms that learn representations by minimizing the prediction error of their own future latent representations. Despite its recent empirical success, such algorithms have an apparent defect: trivial representations (such as constants) minimize the prediction error, yet it is obviously undesirable to converge to such solutions. Our central insight is that careful designs of the optimization dynamics are critical to learning meaningful representations. We identify that a faster paced optimization of the predictor and semi-gradient updates on the representation, are crucial to preventing the representation collapse. Then in an idealized setup, we show self-predictive learning dynamics carries out spectral decomposition on the state transition matrix, effectively capturing information of the transition dynamics. Building on the theoretical insights, we propose bidirectional self-predictive learning, a novel self-predictive algorithm that learns two representations simultaneously. We examine the robustness of our theoretical insights with a number of small-scale experiments and showcase the promise of the novel representation learning algorithm with large-scale experiments.
Abstract（参考訳）: 本研究では,自己予測学習の学習ダイナミクスを学習し,予測誤差を最小化して表現を学習するアルゴリズムのファミリーである強化学習について検討する。最近の経験的成功にもかかわらず、そのようなアルゴリズムには明らかな欠陥がある: 自明な表現(定数など)は予測誤差を最小化するが、そのような解に収束することは明らかに望ましくない。私たちの中心となる洞察は、最適化ダイナミクスの注意深い設計は意味のある表現を学ぶのに不可欠であるということです。我々は,予測器の高速化と表現の半段階的な更新が,表現の崩壊を防止する上で重要であることを見出した。そして、理想化された設定において、自己予測学習のダイナミクスが状態遷移行列上でスペクトル分解を行い、遷移のダイナミクスに関する情報を効果的に取得することを示す。理論的知見に基づいて,2つの表現を同時に学習する新しい自己予測アルゴリズムである双方向自己予測学習を提案する。提案する理論的洞察のロバスト性について,多数の小規模実験で検証し,大規模実験による新しい表現学習アルゴリズムの可能性を実証した。

関連論文リスト

Measuring Representational Shifts in Continual Learning: A Linear Transformation Perspective [12.769918589649299]
継続的な学習シナリオでは、以前に学んだタスクの破滅的な忘れ忘れが重要な問題である。本稿では,表現を忘れることに関する最初の理論的分析を行い,この分析を用いて連続学習の振る舞いをよりよく理解する。
論文参考訳（メタデータ） (2025-05-27T10:04:00Z)
Improving Question Embeddings with Cognitiv Representation Optimization for Knowledge Tracing [77.14348157016518]
知識追跡(KT)は,学生の知識状況の変化を追跡し,過去の回答記録に基づいて将来の回答を予測することを目的としている。 KTモデリングに関する最近の研究は、既存の未更新の学習相互作用の記録に基づいて、学生の将来のパフォーマンスを予測することに焦点を当てている。本稿では、動的プログラミングアルゴリズムを用いて認知表現の構造を最適化する知識追跡モデルのための認知表現最適化を提案する。
論文参考訳（メタデータ） (2025-04-05T09:32:03Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
From latent dynamics to meaningful representations [0.5728954513076778]
純粋に動的に制約された表現学習フレームワークを提案する。これは力学系における表現学習のより自然な制約であることを示す。我々は,現実の蛍光DNAフィルムデータセットを含む様々なシステムに対して,我々の枠組みを検証する。
論文参考訳（メタデータ） (2022-09-02T09:27:37Z)
Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文参考訳（メタデータ） (2022-04-05T12:52:45Z)
Fortuitous Forgetting in Connectionist Networks [20.206607130719696]
我々は,ニューラルネットワークの学習軌跡を形成するための強力なパラダイムとして,"forget-and-relearn"を紹介した。 forget-and-relearnフレームワークは、画像分類と言語出現文学において、多くの既存の反復的トレーニングアルゴリズムを統合する。我々は、この理解を活用して、よりターゲットを絞った忘れ操作を設計することで、既存のアルゴリズムを改善する。
論文参考訳（メタデータ） (2022-02-01T00:15:58Z)
Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文参考訳（メタデータ） (2021-06-07T14:02:49Z)
Self-Adaptive Training: Bridging the Supervised and Self-Supervised Learning [16.765461276790944]
自己適応型トレーニングは、追加の計算コストを課すことなく、モデル予測によってトレーニングプロセスを動的にキャリブレーションし、強化する統一型トレーニングアルゴリズムです。ランダムノイズや敵対的な例など、破損したトレーニングデータの深層ネットワークのトレーニングダイナミクスを分析します。分析の結果, モデル予測はデータ中の有用な情報量を拡大することが可能であり, 強調ラベル情報がない場合にも広く発生することがわかった。
論文参考訳（メタデータ） (2021-01-21T17:17:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。