Fugu-MT 論文翻訳(概要): The impact of model size on catastrophic forgetting in Online Continual Learning

論文の概要: The impact of model size on catastrophic forgetting in Online Continual Learning

arxiv url: http://arxiv.org/abs/2407.00176v1
Date: Fri, 28 Jun 2024 18:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:00:32.476470
Title: The impact of model size on catastrophic forgetting in Online Continual Learning
Title（参考訳）: オンライン連続学習におけるモデルサイズが破滅的忘れに及ぼす影響
Authors: Eunhae Lee,
Abstract要約: SplitCIFAR-10データセットを用いたクラス増分学習におけるネットワーク深さと幅がモデル性能に与える影響について検討した。結果は、より大きなモデルは本質的に破滅的な忘れを和らげるという考えに挑戦する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the impact of model size on Online Continual Learning performance, with a focus on catastrophic forgetting. Employing ResNet architectures of varying sizes, the research examines how network depth and width affect model performance in class-incremental learning using the SplitCIFAR-10 dataset. Key findings reveal that larger models do not guarantee better Continual Learning performance; in fact, they often struggle more in adapting to new tasks, particularly in online settings. These results challenge the notion that larger models inherently mitigate catastrophic forgetting, highlighting the nuanced relationship between model size and Continual Learning efficacy. This study contributes to a deeper understanding of model scalability and its practical implications in Continual Learning scenarios.
Abstract（参考訳）: 本研究では,モデルサイズがオンライン連続学習のパフォーマンスに及ぼす影響について検討し,破滅的な忘れ方に着目した。様々なサイズのResNetアーキテクチャを用いて,SplitCIFAR-10データセットを用いたクラス増分学習において,ネットワークの深さと幅がモデル性能に与える影響について検討した。重要な発見は、より大きなモデルでは継続学習のパフォーマンスが向上しないことを示している; 実際、特にオンライン環境では、新しいタスクへの適応に苦戦することが多い。これらの結果は、より大きなモデルが本質的に破滅的な忘れを軽減し、モデルサイズと連続学習の有効性のニュアンスな関係を強調するという概念に挑戦する。本研究は,連続学習シナリオにおけるモデルのスケーラビリティとその実践的意味の理解に寄与する。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文参考訳（メタデータ） (2024-02-13T17:18:56Z)
Robustness and Generalization Performance of Deep Learning Models on Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文参考訳（メタデータ） (2023-06-13T12:43:59Z)
Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-06-05T08:45:44Z)
Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文参考訳（メタデータ） (2023-03-26T14:49:37Z)
Exploring the Effects of Data Augmentation for Drivable Area Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文参考訳（メタデータ） (2022-08-06T03:39:37Z)
Do we need to go Deep? Knowledge Tracing with Big Data [5.218882272051637]
教育分野で公開されている最大の学生インタラクションデータセットであるEdNetを使用して、深層モデルと従来のモデルの両方が将来の学生のパフォーマンスを正確に予測する方法を理解しています。我々の研究は、慎重に設計された特徴を持つロジスティック回帰モデルが広範な実験から深いモデルよりも優れていることを観察する。
論文参考訳（メタデータ） (2021-01-20T22:40:38Z)
The Self-Simplifying Machine: Exploiting the Structure of Piecewise Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文参考訳（メタデータ） (2020-12-02T16:02:14Z)
Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。影響評価は浅いネットワークではかなり正確ですヘッセン正則化は、高品質な影響推定を得るために重要である。
論文参考訳（メタデータ） (2020-06-25T18:25:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。