論文の概要: Simple Hack for Transformers against Heavy Long-Text Classification on a Time- and Memory-Limited GPU Service
- arxiv url: http://arxiv.org/abs/2403.12563v1
- Date: Tue, 19 Mar 2024 09:17:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:43:03.121513
- Title: Simple Hack for Transformers against Heavy Long-Text Classification on a Time- and Memory-Limited GPU Service
- Title(参考訳): 時間・メモリ制限型GPUサービスにおける重テキスト分類に対する変換器の簡単なハック
- Authors: Mirza Alim Mutasodirin, Radityo Eko Prasojo, Achmad F. Abka, Hanif Rasyidi,
- Abstract要約: インドネシアでは、トランスフォーマーを用いた長文の分類ではごくわずかしか見つからなかった。
本研究では,18kのニュース記事を用いて,トークンの出力長に基づいた事前学習モデルの使用を推奨する手法を検討する。
句読点と低頻度の単語を保ちながら、停止語を削除することが、最良のハックであることに気付きました。
- 参考スコア(独自算出の注目度): 2.251702329659164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many NLP researchers rely on free computational services, such as Google Colab, to fine-tune their Transformer models, causing a limitation for hyperparameter optimization (HPO) in long-text classification due to the method having quadratic complexity and needing a bigger resource. In Indonesian, only a few works were found on long-text classification using Transformers. Most only use a small amount of data and do not report any HPO. In this study, using 18k news articles, we investigate which pretrained models are recommended to use based on the output length of the tokenizer. We then compare some hacks to shorten and enrich the sequences, which are the removals of stopwords, punctuation, low-frequency words, and recurring words. To get a fair comparison, we propose and run an efficient and dynamic HPO procedure that can be done gradually on a limited resource and does not require a long-running optimization library. Using the best hack found, we then compare 512, 256, and 128 tokens length. We find that removing stopwords while keeping punctuation and low-frequency words is the best hack. Some of our setups manage to outperform taking 512 first tokens using a smaller 128 or 256 first tokens which manage to represent the same information while requiring less computational resources. The findings could help developers to efficiently pursue optimal performance of the models using limited resources.
- Abstract(参考訳): 多くのNLP研究者は、Google Colabのような無料の計算サービスを使って、Transformerモデルを微調整し、二次的な複雑さとより大きなリソースを必要とするメソッドのために、長文分類におけるハイパーパラメータ最適化(HPO)の制限を引き起こしている。
インドネシアでは、トランスフォーマーを用いた長文の分類ではごくわずかしか見つからなかった。
ほとんどの場合、少量のデータのみを使用し、HPOを報告しない。
本研究では,18kのニュース記事を用いて,トークンの出力長に基づいた事前学習モデルの使用を推奨する手法を検討する。
次に、いくつかのハックを比較して、停止語、句読点、低頻度語、繰り返し単語の削除といったシーケンスを短くし、強化します。
公平な比較を得るために,限られたリソースで段階的に実行可能で,長期の最適化ライブラリを必要としない,効率的で動的なHPOプロシージャを提案し,実行している。
見つかった最高のハックを使って、512、256、および128のトークン長を比較します。
句読点と低頻度の単語を保ちながら、停止語を削除することが、最良のハックであることに気付きました。
セットアップのいくつかは、より小さな128または256のファーストトークンを使用して、512のファーストトークンを処理し、計算リソースを少なくしながら同じ情報を表現しています。
この発見は,限られたリソースを使用して,モデルの最適なパフォーマンスを効率的に追求する上で有効だ。
関連論文リスト
- VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Deep Continuous Prompt for Contrastive Learning of Sentence Embeddings [8.70715711885114]
本稿では,言語モデル全体を凍結し,プレフィックスの深い連続的なプロンプトのみを最適化する新しい手法を提案する。
元の言語モデルの約0.1%のパラメータをチューニングするだけでなく、手作りのプロンプトを検索する面倒な計算を避ける。
提案したDCPCSEは最先端のSimCSEよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-03-14T06:07:44Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。