Fugu-MT 論文翻訳(概要): DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion

論文の概要: DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion

arxiv url: http://arxiv.org/abs/2111.11326v1
Date: Mon, 22 Nov 2021 16:29:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-23 19:22:57.305493
Title: DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion
Title（参考訳）: DyTox: Dynamic Token eXpansionを用いた連続学習用変換器
Authors: Arthur Douillard, Alexandre Ram\'e, Guillaume Couairon, Matthieu Cord
Abstract要約: 本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
参考スコア（独自算出の注目度）: 89.92242000948026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep network architectures struggle to continually learn new tasks without forgetting the previous tasks. A recent trend indicates that dynamic architectures based on an expansion of the parameters can reduce catastrophic forgetting efficiently in continual learning. However, existing approaches often require a task identifier at test-time, need complex tuning to balance the growing number of parameters, and barely share any information across tasks. As a result, they struggle to scale to a large number of tasks without significant overhead. In this paper, we propose a transformer architecture based on a dedicated encoder/decoder framework. Critically, the encoder and decoder are shared among all tasks. Through a dynamic expansion of special tokens, we specialize each forward of our decoder network on a task distribution. Our strategy scales to a large number of tasks while having negligible memory and time overheads due to strict control of the parameters expansion. Moreover, this efficient strategy doesn't need any hyperparameter tuning to control the network's expansion. Our model reaches excellent results on CIFAR100 and state-of-the-art performances on the large-scale ImageNet100 and ImageNet1000 while having less parameters than concurrent dynamic frameworks.
Abstract（参考訳）: ディープネットワークアーキテクチャは、以前のタスクを忘れずに、新しいタスクを継続的に学習する。最近の傾向は、パラメータの拡張に基づく動的アーキテクチャは、継続的な学習において壊滅的な忘れを効果的に減らすことができることを示している。しかし、既存のアプローチでは、テスト時にタスク識別子を必要とし、増加するパラメータ数のバランスをとるために複雑なチューニングを必要とし、タスク間で情報を共有することはほとんどありません。その結果、大きなオーバーヘッドを伴わずに、大量のタスクにスケールするのに苦労した。本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。批判的に、エンコーダとデコーダはすべてのタスクで共有される。特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。我々の戦略は、パラメータ拡張の厳格な制御により、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールする。さらに、この効率的な戦略は、ネットワークの拡張を制御するためにハイパーパラメータチューニングを必要としない。 CIFAR100と大規模 ImageNet100 と ImageNet1000 のパフォーマンスは,並列動的フレームワークよりもパラメータが少なく,優れた結果を得た。

関連論文リスト

Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文参考訳（メタデータ） (2025-04-02T05:50:19Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文参考訳（メタデータ） (2023-08-22T19:09:56Z)
Multi-task neural networks by learned contextual inputs [0.0]
完全に共有されたニューラルネットワークと、トレーニング可能なタスクパラメータを含む拡張入力ベクトルに基づくマルチタスク学習アーキテクチャである。このアーキテクチャは、低次元のタスクパラメータ空間を促進する強力なタスク機構によって興味深い。アーキテクチャのパフォーマンスは、10つのデータセット上の類似のニューラルネットワークアーキテクチャと比較される。
論文参考訳（メタデータ） (2023-03-01T19:25:52Z)
PAD-Net: An Efficient Framework for Dynamic Networks [72.85480289152719]
動的ネットワークを実装する際の一般的な実践は、与えられた静的レイヤを完全な動的レイヤに変換することである。我々は、冗長な動的パラメータを静的なパラメータに変換するために、部分的に動的ネットワーク、すなわちPAD-Netを提案する。提案手法は,2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
論文参考訳（メタデータ） (2022-11-10T12:42:43Z)
DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。実験の結果,様々な設定や設定において優れた性能を示した。
論文参考訳（メタデータ） (2022-06-09T17:57:46Z)
Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文参考訳（メタデータ） (2021-04-20T17:16:34Z)
Efficient Feature Transformations for Discriminative and Generative Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文参考訳（メタデータ） (2021-03-25T01:48:14Z)
MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文参考訳（メタデータ） (2021-03-24T08:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。