論文の概要: Divide and not forget: Ensemble of selectively trained experts in
Continual Learning
- arxiv url: http://arxiv.org/abs/2401.10191v2
- Date: Fri, 19 Jan 2024 10:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:19:00.409508
- Title: Divide and not forget: Ensemble of selectively trained experts in
Continual Learning
- Title(参考訳): 分断は忘れず--連続学習における選択訓練専門家の集まり
- Authors: Grzegorz Rype\'s\'c, Sebastian Cygert, Valeriya Khan, Tomasz
Trzci\'nski, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski
- Abstract要約: クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
- 参考スコア(独自算出の注目度): 15.92212414572829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-incremental learning is becoming more popular as it helps models widen
their applicability while not forgetting what they already know. A trend in
this area is to use a mixture-of-expert technique, where different models work
together to solve the task. However, the experts are usually trained all at
once using whole task data, which makes them all prone to forgetting and
increasing computational burden. To address this limitation, we introduce a
novel approach named SEED. SEED selects only one, the most optimal expert for a
considered task, and uses data from this task to fine-tune only this expert.
For this purpose, each expert represents each class with a Gaussian
distribution, and the optimal expert is selected based on the similarity of
those distributions. Consequently, SEED increases diversity and heterogeneity
within the experts while maintaining the high stability of this ensemble
method. The extensive experiments demonstrate that SEED achieves
state-of-the-art performance in exemplar-free settings across various
scenarios, showing the potential of expert diversification through data in
continual learning.
- Abstract(参考訳): クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
しかし、専門家は通常、すべてのタスクデータを使って一度に訓練されるため、計算負荷を忘れて増大する傾向があります。
この制限に対処するために,SEEDという新しいアプローチを導入する。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
この目的のために、各専門家は各クラスをガウス分布で表現し、それらの分布の類似性に基づいて最適な専門家を選択する。
その結果、SEEDはアンサンブル法の安定性を維持しつつ、専門家の多様性と不均一性を高める。
この実験により、SEEDは様々なシナリオにまたがる模範のない設定において最先端のパフォーマンスを実現し、連続学習におけるデータによる専門家の多様化の可能性を示している。
関連論文リスト
- Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Learning More Generalized Experts by Merging Experts in Mixture-of-Experts [0.5221459608786241]
共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを示す。
2つの最も頻度の高い専門家を合併し、最も頻度の低い専門家を専門家の組み合わせを使って更新します。
本アルゴリズムは,多領域タスクインクリメンタル学習に適用した場合に,伝達学習を強化し,破滅的な忘れを緩和する。
論文 参考訳(メタデータ) (2024-05-19T11:55:48Z) - Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。
パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。
特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文 参考訳(メタデータ) (2024-02-08T17:43:22Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Balanced Product of Calibrated Experts for Long-Tailed Recognition [13.194151879344487]
多くの実世界の認識問題は長いラベルの分布によって特徴づけられる。
本研究では分析的アプローチを採り、ロジット調整の概念をアンサンブルに拡張し、専門家のバランス製品(BalPoE)を形成する。
我々はこれらの分布を適切に定義し、偏りのない予測を達成するために専門家を組み合わせる方法を示す。
論文 参考訳(メタデータ) (2022-06-10T17:59:02Z) - Test-Agnostic Long-Tailed Recognition by Test-Time Aggregating Diverse
Experts with Self-Supervision [85.07855130048951]
本研究では,テスト非依存型ロングテール認識(test-agnostic long-tailed recognition)と呼ばれる,より実践的なタスク設定について検討する。
本稿では,多種多様な専門家に異なるテスト分布を扱うように訓練するTADE(Test-time Aggregating Diverse Experts)と呼ばれる新しい手法を提案する。
理論的には,提案手法は未知のテストクラス分布をシミュレートできることを示す。
論文 参考訳(メタデータ) (2021-07-20T04:10:31Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。