論文の概要: When does Self-Prediction help? Understanding Auxiliary Tasks in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.17718v1
- Date: Tue, 25 Jun 2024 17:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:31:24.734577
- Title: When does Self-Prediction help? Understanding Auxiliary Tasks in Reinforcement Learning
- Title(参考訳): 自己予測はいつに役立つのか?強化学習における補助的課題を理解する
- Authors: Claas Voelcker, Tyler Kastner, Igor Gilitschenski, Amir-massoud Farahmand,
- Abstract要約: 強化学習における観察再構成や潜時自己予測などの補助学習タスクが表現学習問題に与える影響について検討する。
本稿では,注意散逸や観察機能の存在下での観察再構成,潜時自己予測,およびTD学習の学習力学に関する理論的解析を行う。
- 参考スコア(独自算出の注目度): 12.717759767131174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the impact of auxiliary learning tasks such as observation reconstruction and latent self-prediction on the representation learning problem in reinforcement learning. We also study how they interact with distractions and observation functions in the MDP. We provide a theoretical analysis of the learning dynamics of observation reconstruction, latent self-prediction, and TD learning in the presence of distractions and observation functions under linear model assumptions. With this formalization, we are able to explain why latent-self prediction is a helpful \emph{auxiliary task}, while observation reconstruction can provide more useful features when used in isolation. Our empirical analysis shows that the insights obtained from our learning dynamics framework predicts the behavior of these loss functions beyond the linear model assumption in non-linear neural networks. This reinforces the usefulness of the linear model framework not only for theoretical analysis, but also practical benefit for applied problems.
- Abstract(参考訳): 強化学習における観察再構成や潜時自己予測などの補助学習タスクが表現学習問題に与える影響について検討する。
また,MDPにおける注意散らしや観察機能との相互作用についても検討した。
本稿では,線形モデル仮定の下での注意散らしや観察機能の存在下での観察再構成,潜時自己予測,およびTD学習の学習力学に関する理論的解析を行う。
この形式化により、潜在自己予測が有用である理由を説明できる一方、観測再構成は単独で使用する場合により有用な特徴を提供することができる。
我々の経験的分析は、学習力学フレームワークから得られた知見が、非線形ニューラルネットワークにおける線形モデル仮定を超えた損失関数の挙動を予測することを示している。
これにより、線形モデルフレームワークの理論的解析だけでなく、応用問題に対する実用的利益も強化される。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-07-10T18:17:50Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。