論文の概要: Batch Model Consolidation: A Multi-Task Model Consolidation Framework
- arxiv url: http://arxiv.org/abs/2305.16484v1
- Date: Thu, 25 May 2023 21:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 18:07:49.494400
- Title: Batch Model Consolidation: A Multi-Task Model Consolidation Framework
- Title(参考訳): バッチモデル統合:マルチタスクモデル統合フレームワーク
- Authors: Iordanis Fostiropoulos, Jiaye Zhu, Laurent Itti
- Abstract要約: 連続学習(CL)では、以前に学習したタスクの大幅な性能劣化を伴わずに、連続的にタスクのストリームを学習するモデルが求められている。
我々は,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするために,バッチモデル統合(textbfBMC$)を提案する。
提案手法は次の最良CL手法を70%向上させ,71タスクの終了時に性能を維持できる唯一の手法である。
- 参考スコア(独自算出の注目度): 14.687385545898776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Continual Learning (CL), a model is required to learn a stream of tasks
sequentially without significant performance degradation on previously learned
tasks. Current approaches fail for a long sequence of tasks from diverse
domains and difficulties. Many of the existing CL approaches are difficult to
apply in practice due to excessive memory cost or training time, or are tightly
coupled to a single device. With the intuition derived from the widely applied
mini-batch training, we propose Batch Model Consolidation ($\textbf{BMC}$) to
support more realistic CL under conditions where multiple agents are exposed to
a range of tasks. During a $\textit{regularization}$ phase, BMC trains multiple
$\textit{expert models}$ in parallel on a set of disjoint tasks. Each expert
maintains weight similarity to a $\textit{base model}$ through a
$\textit{stability loss}$, and constructs a $\textit{buffer}$ from a fraction
of the task's data. During the $\textit{consolidation}$ phase, we combine the
learned knowledge on 'batches' of $\textit{expert models}$ using a
$\textit{batched consolidation loss}$ in $\textit{memory}$ data that aggregates
all buffers. We thoroughly evaluate each component of our method in an ablation
study and demonstrate the effectiveness on standardized benchmark datasets
Split-CIFAR-100, Tiny-ImageNet, and the Stream dataset composed of 71 image
classification tasks from diverse domains and difficulties. Our method
outperforms the next best CL approach by 70% and is the only approach that can
maintain performance at the end of 71 tasks; Our benchmark can be accessed at
https://github.com/fostiropoulos/stream_benchmark
- Abstract(参考訳): 連続学習(cl)では,事前学習したタスクの性能低下を伴わずに逐次的にタスクの流れを学習するモデルが必要となる。
現在のアプローチは、さまざまなドメインや困難からの長いタスクで失敗します。
既存のclアプローチの多くは、過度のメモリコストやトレーニング時間のため、あるいはひとつのデバイスに密結合しているため、実際に適用することが難しい。
広範に適用されたミニバッチトレーニングから導かれる直感を用いて,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするためにバッチモデル統合($\textbf{BMC}$)を提案する。
a $\textit{regularization}$ phase の間、bmc は複数の\textit{expert models}$ を複数の非結合タスクで並列に訓練する。
各専門家は、$\textit{stability loss}$を通じて$\textit{base model}$と重みを保ち、タスクのデータの一部から$\textit{buffer}$を構成する。
また、$\textit{consolidation}$フェーズでは、$\textit{expert models}$の'batches'の学習知識を$\textit{batched consolidated loss}$ in $\textit{memory}$データで組み合わせ、すべてのバッファを集約します。
本手法の各成分をアブレーション研究において徹底的に評価し,slit-cifar-100,tiny-imagenet,および71個の画像分類タスクと難易度からなるストリームデータセットの有効性を実証した。
私たちのメソッドは、71タスクの最後にパフォーマンスを維持できる唯一のアプローチであり、次のベストCLアプローチよりも70%優れています。
関連論文リスト
- $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking [11.334577756093923]
我々はデータセット構築パイプラインを提案し、MELのための大規模データセットであるM3EL$を発行する。
M3EL$には79,625のインスタンスが含まれ、9つの多様なマルチモーダルタスクと5つのトピックが含まれている。
我々のデータセットはこれらの問題に効果的に対処し、$textitCLIP_textitND$モデルに$M3EL$を微調整すると精度が大幅に向上する。
論文 参考訳(メタデータ) (2024-10-08T10:52:23Z) - In-Context Learning for Extreme Multi-Label Classification [29.627891261947536]
数千のクラスを持つマルチラベル分類問題は、文脈内学習だけでは解決が難しい。
本稿では,これらの問題に効率的に対処するために,LMとレトリバー間のマルチステップインタラクションを定義する汎用プログラムを提案する。
我々のソリューションは微調整を必要とせず、新しいタスクに容易に適用でき、迅速なエンジニアリングを緩和し、ラベル付きサンプルを数十個しか必要としない。
論文 参考訳(メタデータ) (2024-01-22T18:09:52Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Data-Centric Debugging: mitigating model failures via targeted data
collection [4.599792546344752]
トレーニングセットがデプロイされているすべての設定を適切にカバーしていない場合、ディープニューラルネットワークは、現実世界では信頼性が低い可能性がある。
本稿では,従来のテストセットの性能を維持しつつ,$mathcalE$のモデル性能を体系的に改善できるモデルデバッグの一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T19:44:02Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - IDEAL: Independent Domain Embedding Augmentation Learning [8.376337907951012]
我々は,独立ドメイン埋め込み強化学習法(I)を新たに開発する。
複数のデータドメインによって生成された変換に対して、複数の独立した埋め込み空間を同時に学習することができる。
我々のISOPは既存のDML技術であり、性能向上のために従来のDMLアプローチとシームレスに組み合わせることができる。
論文 参考訳(メタデータ) (2021-05-21T03:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。