論文の概要: Assessor-Guided Learning for Continual Environments
- arxiv url: http://arxiv.org/abs/2303.11624v1
- Date: Tue, 21 Mar 2023 06:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:21:23.762491
- Title: Assessor-Guided Learning for Continual Environments
- Title(参考訳): 連続環境における評価者誘導学習
- Authors: Muhammad Anwar Ma'sum, Mahardhika Pratama, Edwin Lughofer, Weiping
Ding, Wisnu Jatmiko
- Abstract要約: 本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
- 参考スコア(独自算出の注目度): 17.181933166255448
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes an assessor-guided learning strategy for continual
learning where an assessor guides the learning process of a base learner by
controlling the direction and pace of the learning process thus allowing an
efficient learning of new environments while protecting against the
catastrophic interference problem. The assessor is trained in a meta-learning
manner with a meta-objective to boost the learning process of the base learner.
It performs a soft-weighting mechanism of every sample accepting positive
samples while rejecting negative samples. The training objective of a base
learner is to minimize a meta-weighted combination of the cross entropy loss
function, the dark experience replay (DER) loss function and the knowledge
distillation loss function whose interactions are controlled in such a way to
attain an improved performance. A compensated over-sampling (COS) strategy is
developed to overcome the class imbalanced problem of the episodic memory due
to limited memory budgets. Our approach, Assessor-Guided Learning Approach
(AGLA), has been evaluated in the class-incremental and task-incremental
learning problems. AGLA achieves improved performances compared to its
competitors while the theoretical analysis of the COS strategy is offered.
Source codes of AGLA, baseline algorithms and experimental logs are shared
publicly in \url{https://github.com/anwarmaxsum/AGLA} for further study.
- Abstract(参考訳): 本稿では,学習過程の方向と速度を制御してベース学習者の学習プロセスを指導し,破滅的干渉問題から保護しつつ,新しい環境の効率的な学習を可能にする,連続学習のための評価者誘導学習戦略を提案する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
陰性サンプルを拒絶しながら正のサンプルを受け入れる全てのサンプルの軟弱機構を実行する。
基礎学習者の訓練目的は、クロスエントロピー損失関数、ダークエクスペリエンス再生(der)損失関数、および相互作用が制御された知識蒸留損失関数のメタ重み付け結合を最小化し、パフォーマンス向上を図ることである。
メモリ予算の制限により、エピソードメモリのクラス不均衡問題を克服するために、補償オーバーサンプリング(COS)戦略が開発された。
提案手法であるAssessor-Guided Learning Approach (AGLA) は,クラス増分およびタスク増分学習問題において評価されている。
AGLAは競合製品に比べて性能が向上し、COS戦略の理論的分析が提供されている。
AGLA、ベースラインアルゴリズム、実験ログのソースコードは、さらなる研究のために \url{https://github.com/anwarmaxsum/AGLA} で公開されている。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Bayesian Learning-driven Prototypical Contrastive Loss for Class-Incremental Learning [42.14439854721613]
本稿では,クラス増分学習シナリオに特化して,ベイズ学習駆動型コントラスト損失(BLCL)を持つプロトタイプネットワークを提案する。
提案手法は,ベイズ学習手法を用いて,クロスエントロピーとコントラスト損失関数のバランスを動的に適用する。
論文 参考訳(メタデータ) (2024-05-17T19:49:02Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Class Incremental Learning for Adversarial Robustness [17.06592851567578]
アドリラルトレーニングは、モデルトレーニング中の敵の例を統合して、堅牢性を高める。
直感的な対人訓練と漸進的な学習を組み合わせることで、頑健さが失われることが容易に分かる。
本稿では, 対向型とクリーン型との出力差を生かしたFPD損失を提案する。
論文 参考訳(メタデータ) (2023-12-06T04:38:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Towards Balanced Learning for Instance Recognition [149.76724446376977]
本稿では,インスタンス認識のためのバランス学習のためのフレームワークであるLibra R-CNNを提案する。
IoUバランスのサンプリング、バランスの取れた特徴ピラミッド、客観的再重み付けをそれぞれ統合し、サンプル、特徴、客観的レベルの不均衡を低減します。
論文 参考訳(メタデータ) (2021-08-23T13:40:45Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。