論文の概要: Learning Successor Features the Simple Way
- arxiv url: http://arxiv.org/abs/2410.22133v1
- Date: Tue, 29 Oct 2024 15:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:49.554890
- Title: Learning Successor Features the Simple Way
- Title(参考訳): 継承者学習の簡単な方法
- Authors: Raymond Chua, Arna Ghosh, Christos Kaplanis, Blake A. Richards, Doina Precup,
- Abstract要約: 継承的特徴(SF)は、非定常環境において破滅的な忘れや干渉を示さない学習表現に対する潜在的な解決策を提供する。
画素から直接SFを学習する,新しい,シンプルな手法を提案する。
我々は,従来の2D (Minigrid), 3D (Miniworld) mazes, Mujocoの2つの学習シナリオにおいて,1つの学習シナリオと連続的な学習シナリオの両方において,アプローチが既存のSF学習手法より優れているか,あるいは優れていることを示す。
- 参考スコア(独自算出の注目度): 39.06422478510408
- License:
- Abstract: In Deep Reinforcement Learning (RL), it is a challenge to learn representations that do not exhibit catastrophic forgetting or interference in non-stationary environments. Successor Features (SFs) offer a potential solution to this challenge. However, canonical techniques for learning SFs from pixel-level observations often lead to representation collapse, wherein representations degenerate and fail to capture meaningful variations in the data. More recent methods for learning SFs can avoid representation collapse, but they often involve complex losses and multiple learning phases, reducing their efficiency. We introduce a novel, simple method for learning SFs directly from pixels. Our approach uses a combination of a Temporal-difference (TD) loss and a reward prediction loss, which together capture the basic mathematical definition of SFs. We show that our approach matches or outperforms existing SF learning techniques in both 2D (Minigrid), 3D (Miniworld) mazes and Mujoco, for both single and continual learning scenarios. As well, our technique is efficient, and can reach higher levels of performance in less time than other approaches. Our work provides a new, streamlined technique for learning SFs directly from pixel observations, with no pretraining required.
- Abstract(参考訳): 深層強化学習(RL)では、非定常環境において破滅的な忘れや干渉を示さない表現を学習することが課題である。
継承機能(SF)はこの課題に対する潜在的な解決策を提供する。
しかし、画素レベルの観測からSFを学習する標準的な手法は、しばしば表現の崩壊を招き、表現は縮退し、データの有意義な変動を捉えることができない。
SFを学習する最近の方法は、表現の崩壊を避けることができるが、複雑な損失と複数の学習フェーズを伴い、効率を低下させることが多い。
画素から直接SFを学習する,新しい,シンプルな手法を提案する。
提案手法では,時間差損失(TD)と報奨予測損失を組み合わせて,SFの基本数学的定義を抽出する。
我々は,従来の2D (Minigrid), 3D (Miniworld) mazes, Mujocoの2つの学習シナリオにおいて,1つの学習シナリオと連続的な学習シナリオの両方において,アプローチが既存のSF学習手法より優れているか,あるいは優れていることを示す。
同様に、我々の技術は効率的であり、他のアプローチよりも少ない時間で高いレベルのパフォーマンスに達することができる。
我々の研究は、事前訓練を必要とせず、ピクセル観察から直接SFを学習するための新しい合理化技術を提供する。
関連論文リスト
- CLOSER: Towards Better Representation Learning for Few-Shot Class-Incremental Learning [52.63674911541416]
FSCIL(Few-shot class-incremental Learning)は、過剰適合や忘れなど、いくつかの課題に直面している。
FSCILの独特な課題に取り組むため、ベースクラスでの表現学習に重点を置いている。
より制限された機能空間内で機能の拡散を確保することで、学習された表現が、伝達可能性と識別可能性のバランスを良くすることが可能になることが分かりました。
論文 参考訳(メタデータ) (2024-10-08T02:23:16Z) - Reducing Catastrophic Forgetting in Online Class Incremental Learning Using Self-Distillation [3.8506666685467343]
連続学習では、モデルが新しいタスクを学ぶと、以前の知識は忘れられる。
本稿では, 自己蒸留による伝達可能な知識の獲得により, この問題の解決を試みた。
提案手法は,CIFAR10,CIFAR100,MinimageNetデータセットを用いた実験により従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-17T16:26:33Z) - Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning [8.729669566501103]
クロスドメインの少数ショット学習は、ターゲットドメイン内の限られたトレーニングデータから知識を取得することを目的としている。
我々は、CNNとViTの両方で元のものを置き換える新しい正規化レイヤを導入する。
提案手法は,個々のデータセットに対する現在のベストアプローチと比較して,最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-01T14:44:41Z) - RanDumb: A Simple Approach that Questions the Efficacy of Continual Representation Learning [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
続いて、オンライン連続学習環境において、前例を保存せずに単純な線形分類器をトレーニングし、一度に1つのサンプルを処理します。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Few-Shot Continual Learning via Flat-to-Wide Approaches [22.442686922974758]
本稿では,FLat-tO-WidE AppRoach (FLOWER) と呼ばれる数発連続学習手法を提案する。
データ不足の問題は、サンプリングスペースを最小の囲み球に制限するために、ボールジェネレータの概念を利用するデータ拡張アプローチによって克服されている。
本研究はFLOWERの利点を実証するものである。
論文 参考訳(メタデータ) (2023-06-26T00:27:48Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - In Defense of the Learning Without Forgetting for Task Incremental
Learning [91.3755431537592]
破滅的な忘れは、継続的な学習システムへの道のりにおける大きな課題の1つだ。
本稿では, タスクインクリメンタルシナリオにおいて, 正しいアーキテクチャと標準的な拡張セットを併用して, LwF が得られた結果が最新のアルゴリズムを上回り, タスクインクリメンタルシナリオが実現されたことを示す。
論文 参考訳(メタデータ) (2021-07-26T16:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。