論文の概要: Fisher-Guided Selective Forgetting: Mitigating The Primacy Bias in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.00802v1
- Date: Sun, 02 Feb 2025 13:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:07.756477
- Title: Fisher-Guided Selective Forgetting: Mitigating The Primacy Bias in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるプライマリーバイアスの緩和
- Authors: Massimiliano Falzari, Matthia Sabatelli,
- Abstract要約: 深層強化学習(Dep Reinforcement Learning, DRL)システムはしばしば、プライマリシーバイアス(PB)として知られる初期経験に過度に適合する傾向にある。
本稿では,Fisher Information Matrix (FIM) のレンズによるPBの包括的調査について述べる。
- 参考スコア(独自算出の注目度): 2.532202013576547
- License:
- Abstract: Deep Reinforcement Learning (DRL) systems often tend to overfit to early experiences, a phenomenon known as the primacy bias (PB). This bias can severely hinder learning efficiency and final performance, particularly in complex environments. This paper presents a comprehensive investigation of PB through the lens of the Fisher Information Matrix (FIM). We develop a framework characterizing PB through distinct patterns in the FIM trace, identifying critical memorization and reorganization phases during learning. Building on this understanding, we propose Fisher-Guided Selective Forgetting (FGSF), a novel method that leverages the geometric structure of the parameter space to selectively modify network weights, preventing early experiences from dominating the learning process. Empirical results across DeepMind Control Suite (DMC) environments show that FGSF consistently outperforms baselines, particularly in complex tasks. We analyze the different impacts of PB on actor and critic networks, the role of replay ratios in exacerbating the effect, and the effectiveness of even simple noise injection methods. Our findings provide a deeper understanding of PB and practical mitigation strategies, offering a FIM-based geometric perspective for advancing DRL.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)システムは初期の経験に過度に適合する傾向があり、これはPB(priminacy bias)と呼ばれる現象である。
このバイアスは、特に複雑な環境において、学習効率と最終的なパフォーマンスを著しく妨げます。
本稿では,Fisher Information Matrix (FIM) のレンズによるPBの包括的調査について述べる。
我々はFIMトレースの異なるパターンを通してPBを特徴付けるフレームワークを開発し、学習中の重要な記憶と再編成フェーズを同定する。
この理解に基づいて、パラメータ空間の幾何学的構造を利用してネットワーク重みを選択的に修正し、初期の経験が学習プロセスを支配するのを防ぐ新しい手法であるFisher-Guided Selective Forgetting (FGSF)を提案する。
DeepMind Control Suite (DMC)環境における実証的な結果から、FGSFは、特に複雑なタスクにおいて、ベースラインを一貫して上回ります。
PBがアクターネットワークや批評家ネットワークに与える影響,効果向上におけるリプレイ比の役割,さらには単純なノイズ注入法の有効性について分析した。
本研究は, PBおよび実践的緩和戦略のより深い理解を提供し, DRLの進展に対するFIMに基づく幾何学的視点を提供する。
関連論文リスト
- Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z) - Most Influential Subset Selection: Challenges, Promises, and Beyond [9.479235005673683]
我々は,最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的とした,MISS(Most Influential Subset Selection)問題について検討する。
我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。
本稿では,これらを反復的に適用した適応バージョンが,試料間の相互作用を効果的に捕捉できることを実証する。
論文 参考訳(メタデータ) (2024-09-25T20:00:23Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Unraveling the Impact of Initial Choices and In-Loop Interventions on Learning Dynamics in Autonomous Scanning Probe Microscopy [0.8070353314073375]
自律実験(AE)の現在の焦点は、AEを効果的に実施するための堅牢な開発にある。
本稿では,初期実験条件とループ内介入がディープラーニング(DKL)の学習力学に及ぼす影響について分析する。
本稿では,DKLの材料特性予測における「シード効果」と「インループシード介入」の影響について述べる。
論文 参考訳(メタデータ) (2024-01-30T20:08:15Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Unsupervised learning of disentangled representations in deep restricted
kernel machines with orthogonality constraints [15.296955630621566]
Constr-DRKMは、非教師なしデータ表現の学習のためのディープカーネル手法である。
本研究では,不整合特徴学習における提案手法の有効性を定量的に評価する。
論文 参考訳(メタデータ) (2020-11-25T11:40:10Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。