論文の概要: Impact of Tokenization on LLaMa Russian Adaptation
- arxiv url: http://arxiv.org/abs/2312.02598v1
- Date: Tue, 5 Dec 2023 09:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:16:36.618102
- Title: Impact of Tokenization on LLaMa Russian Adaptation
- Title(参考訳): LLaMaロシアの適応に及ぼすトークン化の影響
- Authors: Mikhail Tikhomirov and Daniil Chernyshev
- Abstract要約: LLaMaロシア語適応の文脈で語彙置換の問題に対処する可能性を検討する。
自動評価の結果、語彙置換はロシア語のモデルの質を向上させることが示された。
命令調整されたモデルの人間による追加評価は、ロシア語適応語彙を持つモデルがより高いユーザの好みで回答を生成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Latest instruction-tuned large language models (LLM) show great results on
various tasks, however, they often face performance degradation for non-English
input. There is evidence that the reason lies in inefficient tokenization
caused by low language representation in pre-training data which hinders the
comprehension of non-English instructions, limiting the potential of target
language instruction-tuning. In this work we investigate the possibility of
addressing the issue with vocabulary substitution in the context of LLaMa
Russian language adaptation. We explore three variants of vocabulary adaptation
and test their performance on Saiga instruction-tuning and fine-tuning on
Russian Super Glue benchmark. The results of automatic evaluation show that
vocabulary substitution not only improves the model's quality in Russian but
also accelerates fine-tuning (35%) and inference (up to 60%) while reducing
memory consumption. Additional human evaluation of the instruction-tuned models
demonstrates that models with Russian-adapted vocabulary generate answers with
higher user preference than the original Saiga-LLaMa model.
- Abstract(参考訳): 最新の命令調整型大規模言語モデル(llm)は様々なタスクで素晴らしい結果を示すが、英語以外の入力では性能が低下することが多い。
その理由は、非英語命令の理解を妨げる事前学習データにおける低言語表現による非効率なトークン化であり、ターゲット言語命令チューニングの可能性を制限する証拠がある。
本研究では,LLaMaロシア語適応の文脈における語彙置換の問題に対処する可能性を検討する。
語彙適応の3つの変種を探索し,ロシアのsuper glueベンチマークにおけるsaiga命令チューニングと微調整の性能を検証した。
自動評価の結果、語彙置換はロシア語のモデルの品質を向上させるだけでなく、微調整(35%)と推論(60%)を加速し、メモリ消費を減少させることがわかった。
命令調整モデルの人間による追加評価により、ロシア語適応語彙を持つモデルは、元のSaiga-LLaMaモデルよりも高いユーザ好みの回答を生成することが示された。
関連論文リスト
- Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。