Fugu-MT 論文翻訳(概要): Continual Learning Beyond a Single Model

論文の概要: Continual Learning Beyond a Single Model

arxiv url: http://arxiv.org/abs/2202.09826v3
Date: Mon, 3 Jul 2023 23:48:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 00:45:42.324384
Title: Continual Learning Beyond a Single Model
Title（参考訳）: 単一モデルを越えた継続的学習
Authors: Thang Doan, Seyed Iman Mirzadeh, Mehrdad Farajtabar
Abstract要約: そこで本研究では,アンサンブルモデルを用いることで,連続的な性能向上を図った。本稿では,単一モデルに類似した実行時間を持つ計算コストの低いアルゴリズムを提案し,アンサンブルの性能上の利点を享受する。
参考スコア（独自算出の注目度）: 28.130513524601145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A growing body of research in continual learning focuses on the catastrophic forgetting problem. While many attempts have been made to alleviate this problem, the majority of the methods assume a single model in the continual learning setup. In this work, we question this assumption and show that employing ensemble models can be a simple yet effective method to improve continual performance. However, ensembles' training and inference costs can increase significantly as the number of models grows. Motivated by this limitation, we study different ensemble models to understand their benefits and drawbacks in continual learning scenarios. Finally, to overcome the high compute cost of ensembles, we leverage recent advances in neural network subspace to propose a computationally cheap algorithm with similar runtime to a single model yet enjoying the performance benefits of ensembles.
Abstract（参考訳）: 継続的な学習における研究は、破滅的な忘れの問題に焦点を当てている。この問題を軽減するために多くの試みがなされているが、ほとんどの手法は連続的な学習設定において単一のモデルを想定している。本稿では,この仮定に疑問を呈し,アンサンブルモデルの採用が,連続的パフォーマンスを改善するための単純かつ効果的な方法であることを示す。しかし、アンサンブルのトレーニングと推論コストは、モデルの数が増加するにつれて大幅に増加する。この制限により、我々は異なるアンサンブルモデルを研究し、継続的な学習シナリオにおけるそれらの利点と欠点を理解する。最後に、アンサンブルの高計算コストを克服するために、ニューラルネットワークサブスペースの最近の進歩を活用し、単一のモデルに類似したランタイムを持つ計算コストの低いアルゴリズムを提案する。

関連論文リスト

The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models [54.51795784459866]
マルチモデル協調のための性能スケーリングの理論的枠組みを提案する。本稿では,マルチモデルシステムにおいて,パラメータの総数に関して,パワー則のスケーリングが従うことを示す。不均一なモデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンスのスケーリングを実現する。
論文参考訳（メタデータ） (2025-12-29T09:55:12Z)
Continual Learning in Vision-Language Models via Aligned Model Merging [84.47520899851557]
塑性を保ちながら安定性を維持するために,モデルマージに基づく新しい視点を提案する。マージプロセスの有効性を最大化するために,従来のものと一致した重みの学習を促進するシンプルなメカニズムを提案する。
論文参考訳（メタデータ） (2025-05-30T20:52:21Z)
Teaching Large Language Models to Reason through Learning and Forgetting [23.384882158333156]
大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するために有効であることが証明されている。このアプローチは計算コストと推論時間を大幅に向上させる。本稿では,検索機能を直接モデルに組み込むための効果的な手法を提案する。
論文参考訳（メタデータ） (2025-04-15T16:30:02Z)
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文参考訳（メタデータ） (2025-03-31T23:40:28Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文参考訳（メタデータ） (2024-10-06T15:25:39Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Enhanced Few-Shot Class-Incremental Learning via Ensemble Models [34.84881941101568]
クラス増分学習(class-incremental learning)は、新しいクラスを限られたトレーニングデータに継続的に適合させることを目的としている。主な課題は、珍しい新しいトレーニングサンプルを過度に適合させ、古いクラスを忘れることである。本稿では,データ拡張と協調して一般化を促進する新しいアンサンブルモデルフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-14T06:07:07Z)
Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文参考訳（メタデータ） (2023-12-11T19:10:55Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文参考訳（メタデータ） (2023-02-16T16:45:36Z)
Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文参考訳（メタデータ） (2023-01-26T18:58:07Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。