論文の概要: Memory-Efficient Fine-Tuning of Transformers via Token Selection
- arxiv url: http://arxiv.org/abs/2501.18824v1
- Date: Fri, 31 Jan 2025 00:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:24.493755
- Title: Memory-Efficient Fine-Tuning of Transformers via Token Selection
- Title(参考訳): トーケン選択による変圧器のメモリ効率の良い微調整
- Authors: Antoine Simoulin, Namyong Park, Xiaoyi Liu, Grey Yang,
- Abstract要約: TokenTuneは、メモリ使用量を減らす方法であり、特に中間活性化を記憶するためのメモリである。
我々は、最大10億のパラメータを持つ事前学習されたトランスフォーマーモデルに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 8.040237969671942
- License:
- Abstract: Fine-tuning provides an effective means to specialize pre-trained models for various downstream tasks. However, fine-tuning often incurs high memory overhead, especially for large transformer-based models, such as LLMs. While existing methods may reduce certain parts of the memory required for fine-tuning, they still require caching all intermediate activations computed in the forward pass to update weights during the backward pass. In this work, we develop TokenTune, a method to reduce memory usage, specifically the memory to store intermediate activations, in the fine-tuning of transformer-based models. During the backward pass, TokenTune approximates the gradient computation by backpropagating through just a subset of input tokens. Thus, with TokenTune, only a subset of intermediate activations are cached during the forward pass. Also, TokenTune can be easily combined with existing methods like LoRA, further reducing the memory cost. We evaluate our approach on pre-trained transformer models with up to billions of parameters, considering the performance on multiple downstream tasks such as text classification and question answering in a few-shot learning setup. Overall, TokenTune achieves performance on par with full fine-tuning or representative memory-efficient fine-tuning methods, while greatly reducing the memory footprint, especially when combined with other methods with complementary memory reduction mechanisms. We hope that our approach will facilitate the fine-tuning of large transformers, in specializing them for specific domains or co-training them with other neural components from a larger system. Our code is available at https://github.com/facebookresearch/tokentune.
- Abstract(参考訳): ファインチューニングは、様々な下流タスクのための事前訓練されたモデルを専門化する効果的な手段を提供する。
しかし、微調整は、特にLLMのような大きなトランスフォーマーベースのモデルにおいて、高いメモリオーバーヘッドを引き起こすことが多い。
既存の手法では、微調整に必要なメモリの一部を減らすことができるが、後方通過時に重みを更新するためには、フォワードパスで計算された全ての中間活性化をキャッシュする必要がある。
本研究では,メモリ使用量,特に中間アクティベーションを記憶するメモリの削減手法であるTokenTuneを開発した。
後方通過中、TokenTuneは入力トークンのサブセットをバックプロパゲートすることで勾配計算を近似する。
そのため、TokenTuneでは、フォワードパス中に中間アクティベーションのサブセットのみがキャッシュされる。
また、TokenTuneはLoRAのような既存のメソッドと簡単に結合することができ、メモリコストをさらに削減できる。
我々は,最大10億のパラメータを持つ事前学習型トランスフォーマーモデルに対するアプローチを,テキスト分類や質問応答などの下流タスクのパフォーマンスを,数ショットの学習設定で考慮して評価した。
全体として、TokenTuneは、メモリフットプリントを大幅に削減し、特に相補的なメモリ削減機構を備えた他のメソッドと組み合わせることで、完全な微調整または代表的メモリ効率の微調整メソッドと同等のパフォーマンスを達成する。
われわれのアプローチは、大きなトランスフォーマーの微調整を容易にし、特定のドメインに特化したり、より大きなシステムから他のニューラルネットワークコンポーネントと共同でトレーニングできることを期待している。
私たちのコードはhttps://github.com/facebookresearch/tokentune.comで公開されています。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Token Turing Machines [53.22971546637947]
Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。
我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
論文 参考訳(メタデータ) (2022-11-16T18:59:18Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Fine-tuning Image Transformers using Learnable Memory [14.478892724736404]
学習可能なメモリトークンを用いた視覚変換器モデルの拡張を提案する。
当社のアプローチでは,パラメータの少ないモデルで,新たなタスクに適応することが可能です。
層ごとのトークン数が少ないモデルの拡張は精度を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-03-29T05:26:20Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。