Fugu-MT 論文翻訳(概要): Divide and not forget: Ensemble of selectively trained experts in Continual Learning

論文の概要: Divide and not forget: Ensemble of selectively trained experts in Continual Learning

arxiv url: http://arxiv.org/abs/2401.10191v2
Date: Fri, 19 Jan 2024 10:01:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 12:19:00.409508
Title: Divide and not forget: Ensemble of selectively trained experts in Continual Learning
Title（参考訳）: 分断は忘れず--連続学習における選択訓練専門家の集まり
Authors: Grzegorz Rype\'s\'c, Sebastian Cygert, Valeriya Khan, Tomasz Trzci\'nski, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski
Abstract要約: クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。 SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
参考スコア（独自算出の注目度）: 15.92212414572829
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Class-incremental learning is becoming more popular as it helps models widen their applicability while not forgetting what they already know. A trend in this area is to use a mixture-of-expert technique, where different models work together to solve the task. However, the experts are usually trained all at once using whole task data, which makes them all prone to forgetting and increasing computational burden. To address this limitation, we introduce a novel approach named SEED. SEED selects only one, the most optimal expert for a considered task, and uses data from this task to fine-tune only this expert. For this purpose, each expert represents each class with a Gaussian distribution, and the optimal expert is selected based on the similarity of those distributions. Consequently, SEED increases diversity and heterogeneity within the experts while maintaining the high stability of this ensemble method. The extensive experiments demonstrate that SEED achieves state-of-the-art performance in exemplar-free settings across various scenarios, showing the potential of expert diversification through data in continual learning.
Abstract（参考訳）: クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。しかし、専門家は通常、すべてのタスクデータを使って一度に訓練されるため、計算負荷を忘れて増大する傾向があります。この制限に対処するために,SEEDという新しいアプローチを導入する。 SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。この目的のために、各専門家は各クラスをガウス分布で表現し、それらの分布の類似性に基づいて最適な専門家を選択する。その結果、SEEDはアンサンブル法の安定性を維持しつつ、専門家の多様性と不均一性を高める。この実験により、SEEDは様々なシナリオにまたがる模範のない設定において最先端のパフォーマンスを実現し、連続学習におけるデータによる専門家の多様化の可能性を示している。

関連論文リスト

A Square Peg in a Square Hole: Meta-Expert for Long-Tailed Semi-Supervised Learning [18.911712371699263]
本研究では,Long-tailed semi-supervised learning (LTSSL) を分布ミスマッチを用いて検討し,そこでラベル付き学習データのクラス分布がLong-tailed Distributionに従っていることを示す。サンプルのクラスメンバシップを推定できる動的専門家割当てモジュールを提案する。異なる専門家の強みを統合することで、より小さな一般化誤差が生じることを示す。
論文参考訳（メタデータ） (2025-05-22T07:56:44Z)
SEE: Continual Fine-tuning with Sequential Ensemble of Experts [25.96255683276355]
大規模言語モデル(LLM)の継続的な微調整は破滅的な忘れ込みに悩まされる。 SEE(Sequential Ensemble of Experts)フレームワークを紹介します。 SEEは、追加のルータの必要性を排除し、各専門家がクエリを処理するかどうかを独立して決定できるようにする。
論文参考訳（メタデータ） (2025-04-09T07:56:56Z)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文参考訳（メタデータ） (2024-09-23T21:27:26Z)
Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。 DivBS(Diversified Batch Selection)を提案する。
論文参考訳（メタデータ） (2024-06-07T12:12:20Z)
XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
Learning More Generalized Experts by Merging Experts in Mixture-of-Experts [0.5221459608786241]
共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを示す。 2つの最も頻度の高い専門家を合併し、最も頻度の低い専門家を専門家の組み合わせを使って更新します。本アルゴリズムは,多領域タスクインクリメンタル学習に適用した場合に,伝達学習を強化し,破滅的な忘れを緩和する。
論文参考訳（メタデータ） (2024-05-19T11:55:48Z)
Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文参考訳（メタデータ） (2024-02-08T17:43:22Z)
Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文参考訳（メタデータ） (2024-01-08T12:39:25Z)
Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文参考訳（メタデータ） (2023-06-05T06:55:39Z)
Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文参考訳（メタデータ） (2022-09-26T23:27:51Z)
Balanced Product of Calibrated Experts for Long-Tailed Recognition [13.194151879344487]
多くの実世界の認識問題は長いラベルの分布によって特徴づけられる。本研究では分析的アプローチを採り、ロジット調整の概念をアンサンブルに拡張し、専門家のバランス製品(BalPoE)を形成する。我々はこれらの分布を適切に定義し、偏りのない予測を達成するために専門家を組み合わせる方法を示す。
論文参考訳（メタデータ） (2022-06-10T17:59:02Z)
Test-Agnostic Long-Tailed Recognition by Test-Time Aggregating Diverse Experts with Self-Supervision [85.07855130048951]
本研究では,テスト非依存型ロングテール認識(test-agnostic long-tailed recognition)と呼ばれる,より実践的なタスク設定について検討する。本稿では,多種多様な専門家に異なるテスト分布を扱うように訓練するTADE(Test-time Aggregating Diverse Experts)と呼ばれる新しい手法を提案する。理論的には,提案手法は未知のテストクラス分布をシミュレートできることを示す。
論文参考訳（メタデータ） (2021-07-20T04:10:31Z)
Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-01-06T12:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。