論文の概要: Transfer Learning for Structured Pruning under Limited Task Data
- arxiv url: http://arxiv.org/abs/2311.06382v1
- Date: Fri, 10 Nov 2023 20:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:01:24.067009
- Title: Transfer Learning for Structured Pruning under Limited Task Data
- Title(参考訳): 有限タスクデータに基づく構造化プルーニングの伝達学習
- Authors: Lucio Dery, David Grangier and Awni Hannun
- Abstract要約: 本稿では,構造化プルーニングとトランスファーラーニングを組み合わせることで,タスク固有のデータの必要性を減らすフレームワークを提案する。
我々は,強いベースライン上での一般化を改良し,刈り取られたモデルが得られることを実証した。
- 参考スコア(独自算出の注目度): 15.946734013984184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large, pre-trained models are problematic to use in resource constrained
applications. Fortunately, task-aware structured pruning methods offer a
solution. These approaches reduce model size by dropping structural units like
layers and attention heads in a manner that takes into account the end-task.
However, these pruning algorithms require more task-specific data than is
typically available. We propose a framework which combines structured pruning
with transfer learning to reduce the need for task-specific data. Our empirical
results answer questions such as: How should the two tasks be coupled? What
parameters should be transferred? And, when during training should transfer
learning be introduced? Leveraging these insights, we demonstrate that our
framework results in pruned models with improved generalization over strong
baselines.
- Abstract(参考訳): 大規模で事前訓練されたモデルは、リソース制約のあるアプリケーションでの使用に問題がある。
幸いなことに、task-aware structured pruningメソッドはソリューションを提供する。
これらのアプローチは、エンドタスクを考慮した方法でレイヤやアテンションヘッドのような構造ユニットをドロップすることで、モデルサイズを低減する。
しかし、これらのプルーニングアルゴリズムは、通常よりもタスク固有のデータを必要とする。
タスク固有のデータの必要性を減らすために,構造的プルーニングと転送学習を組み合わせたフレームワークを提案する。
私たちの経験的な結果は,次のような質問に答えています。
どんなパラメータを転送すべきか?
そして、トレーニング中の学習をいつ導入すべきか?
これらの知見を生かして、我々のフレームワークは、強いベースラインに対する一般化を改善した刈り込みモデルをもたらすことを示した。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Auxiliary Task Update Decomposition: The Good, The Bad and The Neutral [18.387162887917164]
補助的タスク勾配のきめ細かい操作を行うモデルに依存しないフレームワークを定式化する。
そこで本研究では,タスクの損失を軽減・ダメージ・回避する方向に補助的な更新を分解することを提案する。
テキストと画像の分類タスクのアウト・オブ・ディストリビューションデータを活用する場合,我々のアプローチは一貫して,強靭で広く使用されているベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-08-25T17:09:48Z) - Scalable Transfer Learning with Expert Models [32.48351077884257]
我々は、単純だが効果的で戦略的な転送に専門家表現を用いる方法について検討する。
既存のラベル構造を利用して、さまざまな専門家のセットを訓練し、低コストで計算可能なパフォーマンスプロキシを使用して、目標タスクごとに関連する専門家を選択する。
この戦略は、転送中にトレーニング済みのデータを再考しないため、新しいタスクに転送するプロセスをスケールする。
論文 参考訳(メタデータ) (2020-09-28T12:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。