論文の概要: TopicBERT for Energy Efficient Document Classification
- arxiv url: http://arxiv.org/abs/2010.16407v1
- Date: Thu, 15 Oct 2020 00:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:09:21.867916
- Title: TopicBERT for Energy Efficient Document Classification
- Title(参考訳): エネルギー効率の良い文書分類のためのTopicBERT
- Authors: Yatin Chaudhary, Pankaj Gupta, Khushbu Saxena, Vivek Kulkarni, Thomas
Runkler, Hinrich Sch\"utze
- Abstract要約: 本研究は,文書分類における微調整の計算コストの最適化に重点を置いている。
トピックモデルと言語モデルの両方を,TopicBERTという統合フレームワークで補完的に学習することで,これを実現する。
私たちのモデルは、1.4倍(sim40%$)のスピードアップを実現し、$CO$エミッションを$sim40%$削減し、5つのデータセットよりも99.9%$パフォーマンスを維持します。
- 参考スコア(独自算出の注目度): 19.281411167308843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior research notes that BERT's computational cost grows quadratically with
sequence length thus leading to longer training times, higher GPU memory
constraints and carbon emissions. While recent work seeks to address these
scalability issues at pre-training, these issues are also prominent in
fine-tuning especially for long sequence tasks like document classification.
Our work thus focuses on optimizing the computational cost of fine-tuning for
document classification. We achieve this by complementary learning of both
topic and language models in a unified framework, named TopicBERT. This
significantly reduces the number of self-attention operations - a main
performance bottleneck. Consequently, our model achieves a 1.4x ($\sim40\%$)
speedup with $\sim40\%$ reduction in $CO_2$ emission while retaining $99.9\%$
performance over 5 datasets.
- Abstract(参考訳): 以前の研究によると、BERTの計算コストはシーケンス長で2倍に増加し、長いトレーニング時間、GPUメモリの制約、二酸化炭素排出量が増加する。
最近の研究は、事前トレーニングにおけるこれらのスケーラビリティの問題に対処しようとしているが、特に文書分類のような長いシーケンスタスクにおいて、これらの問題は微調整においても顕著である。
そこで本研究では,文書分類における微調整の計算コストの最適化に焦点をあてる。
トピックモデルと言語モデルの両方を,TopicBERTという統合フレームワークで補完的に学習することで,これを実現する。
これは、主なパフォーマンスボトルネックであるセルフアテンション操作の数を大幅に削減する。
その結果、このモデルは 1.4x (\sim40\%$) のスピードアップを達成し、$co_2$ emission の$sim40\%$を削減し、5つのデータセットに対して$99.9\%$のパフォーマンスを維持する。
関連論文リスト
- Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。
我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。
この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:27:52Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced
Token Detection [49.43407207482008]
SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。
各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
論文 参考訳(メタデータ) (2024-01-24T00:36:13Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文 参考訳(メタデータ) (2022-04-13T09:45:08Z) - Efficient-VDVAE: Less is more [0.0]
我々は、超深度BAEを2.6倍の速度で収束させる修正を提示する。
我々のモデルは、現在の最先端モデルよりも、同等またはより優れた負のログライクチュア性能を達成する。
我々は、階層型VAEの潜在空間次元の約3%が、画像情報のほとんどを符号化するのに十分なものであることを実証的に実証した。
論文 参考訳(メタデータ) (2022-03-25T16:29:46Z) - TrimBERT: Tailoring BERT for Trade-offs [6.068076825261616]
BERT-Baseにおける中間層数の削減は,下流タスクの微調整精度の低下を最小限に抑えることを示す。
さらに、自己アテンション層における全てのソフトマックス操作を、計算的にシンプルな代替品に置き換えることで、2つの重要なボトルネックを緩和する。
論文 参考訳(メタデータ) (2022-02-24T23:06:29Z) - Accelerating BERT Inference for Sequence Labeling via Early-Exit [65.7292767360083]
我々は最近成功した早期退避機構を拡張し、シークエンスラベリングタスクに対するPTMの推論を高速化する。
また、異なる層で部分トークンを早期に退避させるトークンレベルの早期退避機構も提案する。
当社のアプローチでは,パフォーマンスの低下を最小限に抑えながら,最大66%~75%の推論コストを削減できる。
論文 参考訳(メタデータ) (2021-05-28T14:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。