論文の概要: IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining
- arxiv url: http://arxiv.org/abs/2405.09857v1
- Date: Thu, 16 May 2024 07:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:11:06.301963
- Title: IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining
- Title(参考訳): IGOT:ドメイン適応型事前学習における情報ゲイン最適化トケナイザ
- Authors: Dawei Feng, Yihai Zhang, Zhixuan Xu,
- Abstract要約: 事前訓練されたLarge Language Models (LLM) は、自然言語生成の様々な分野で強力な能力を示している。
生成AIを使用して下流タスクを処理する場合、一般的なアプローチは、継続的なトレーニングや微調整を通じて新しい知識を追加することである。
本稿では、下流タスクの特殊トークンセットを分析し、特殊トークンと情報ゲインを併用した$phi$を用いて新しいサブセットを構築する情報ゲイン最適化トークンライザ(IGOT)を提案する。
ドメイン適応型事前学習におけるカスタマイズトークン化器の多くの効果について検討し,本手法がより優れた性能を発揮することを検証した。
- 参考スコア(独自算出の注目度): 2.009700777745832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Large Language Models (LLM) such as ChatGPT, Claude, etc. have demonstrated strong capabilities in various fields of natural language generation. However, there are still many problems when using LLM in specialized domain-specific fields. When using generative AI to process downstream tasks, a common approach is to add new knowledge (e.g., private domain knowledge, cutting-edge information) to a pretrained model through continued training or fine-tuning. However, whether there is a universal paradigm for domain adaptation training is still an open question. In this article, we proposed Information Gain Optimized Tokenizer (IGOT), which analyzes the special token set of downstream tasks, constructs a new subset using heuristic function $\phi$ with the special token and its information gain, to build new domain-specific tokenizer, and continues pretraining on the downstream task data. We explored the many positive effects of this method's customized tokenizer on domain-adaptive pretraining and verified this method can perform better than the ordinary method of just collecting data and fine-tuning. Based on our experiment, the continued pretraining process of IGOT with LLaMA-7B achieved 11.9\% token saving, 12.2\% training time saving, and 5.8\% maximum GPU VRAM usage saving, combined with the T5 model, we can even reach a 31.5\% of training time saving, making porting general generative AI to specific domains more effective than before. In domain-specific tasks, supervised $IGOT_\tau$ shows great performance on reducing both the convergence radius and convergence point during keep pretraining.
- Abstract(参考訳): ChatGPTやClaudeなどの事前訓練された大規模言語モデル(LLM)は、自然言語生成の様々な分野において強力な能力を示している。
しかし、特殊なドメイン固有フィールドでLLMを使用する場合、まだ多くの問題がある。
下流タスクを処理するために生成AIを使用する場合、一般的なアプローチは、継続的なトレーニングや微調整を通じて、トレーニング済みモデルに新たな知識(プライベートドメイン知識、最先端情報など)を追加することである。
しかし、ドメイン適応トレーニングに普遍的なパラダイムが存在するかどうかは、まだ未解決の問題である。
本稿では、下流タスクの特殊トークンセットを分析し、特殊トークンとその情報ゲインを用いてヒューリスティック関数$\phi$を使って新しいサブセットを構築し、新しいドメイン固有のトークンライザを構築し、下流タスクデータに事前トレーニングを継続するIGOT(Information Gain Optimized Tokenizer)を提案する。
本研究では,この手法がドメイン適応型事前学習にどのような効果をもたらすのかを探索し,データ収集や微調整といった通常の方法よりも優れた性能を発揮できることを確認した。
我々の実験に基づいて、IGOTとLLaMA-7Bの継続的な事前トレーニングプロセスは、1.9\%のトークンセーブ、12.2\%のトレーニングタイムセーブ、5.8\%のGPU VRAM使用量セーブを達成した。
ドメイン固有のタスクでは、教師付き$IGOT_\tau$は、保留前トレーニング中の収束半径と収束点の両方を減少させる優れた性能を示す。
関連論文リスト
- TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。
trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。
trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文 参考訳(メタデータ) (2024-05-30T15:57:19Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - Domain Specific Fine-tuning of Denoising Sequence-to-Sequence Models for
Natural Language Summarization [2.9360071145551068]
最先端NLPモデル(BART)の適用について検討する。
我々のエンドツーエンドの微調整アプローチは、事前訓練済みのBARTサマリよりも5-6%の絶対ROUGE-1の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-04-06T18:17:14Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Efficient Domain Adaptation of Language Models via Adaptive Tokenization [5.058301279065432]
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から,直接的に決定可能であることを示す。
我々の手法は、トークン化器の強化を用いた他の手法よりも、より小さなモデルで、トレーニングや推論の時間が少なくなります。
論文 参考訳(メタデータ) (2021-09-15T17:51:27Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。