論文の概要: KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language
Models
- arxiv url: http://arxiv.org/abs/2402.02801v1
- Date: Mon, 5 Feb 2024 08:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:39:39.825317
- Title: KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language
Models
- Title(参考訳): ks-lottery:多言語モデルのための認定抽選券を見つける
- Authors: Fei Yuan, Chang Ma, Shuai Yuan, Qiushi Sun, Lei Li
- Abstract要約: 宝くじ仮説は、ランダムなニューラルネットワーク内での「当選チケット」の存在を仮定する。
KS-Lottery は多言語微調整に非常に有効な LLM パラメータの小さなサブセットを同定する手法である。
- 参考スコア(独自算出の注目度): 18.671588789169693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lottery ticket hypothesis posits the existence of ``winning tickets''
within a randomly initialized neural network. Do winning tickets exist for LLMs
in fine-tuning scenarios? How can we find such winning tickets? In this paper,
we propose KS-Lottery, a method to identify a small subset of LLM parameters
highly effective in multilingual fine-tuning. Our key idea is to use
Kolmogorov-Smirnov Test to analyze the distribution shift of parameters before
and after fine-tuning. We further theoretically prove that KS-Lottery can find
the certified winning tickets in the embedding layer, fine-tuning on the found
parameters is guaranteed to perform as well as full fine-tuning. Comparing
KS-Lottery with other parameter-efficient tuning algorithms on translation
tasks, the experimental results show that KS-Lottery finds a much smaller set
of parameters for fine-tuning while achieving the comparable performance as
full fine-tuning LLM. Surprisingly, we find that fine-tuning 18 tokens'
embedding of LLaMA suffices to reach the fine-tuning translation performance.
Code and model will be released to the public.
- Abstract(参考訳): 宝くじ仮説は、ランダムに初期化されたニューラルネットワーク内で「勝利チケット」の存在を仮定する。
微調整シナリオにおけるLLMの当選チケットは存在するか?
そんな入賞券をどうやって見つけるの?
本稿では,多言語微調整に非常に有効なLLMパラメータの小さなサブセットを同定するKS-Lotteryを提案する。
我々はKolmogorov-Smirnov Testを用いて、微調整前後のパラメータの分布変化を分析する。
さらに ks-lottery が組込み層で認定入賞チケットを検索できることを理論的に証明し、得られたパラメータの微調整と完全な微調整が保証される。
KS-Lotteryと他のパラメータ効率の調整アルゴリズムとの比較実験により,KS-Lotteryは細調整のためのパラメータセットがはるかに小さく,かつ完全な微調整LDMと同等の性能を実現していることがわかった。
驚いたことに、微調整された18個のトークンのLLaMA埋め込みは、微調整された翻訳性能に到達するのに十分である。
コードとモデルは一般公開される予定だ。
関連論文リスト
- A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - Exploring Lottery Prompts for Pre-trained Language Models [46.66885465183664]
インスタンスレベルのプロンプトとその一般化可能性について検討する。
いずれの場合も、ほとんどの場合、PLMから正しい予測を誘導する宝くじプロンプトがある。
一部の強力な宝くじプロンプトは、トレーニングセット全体に対して高いパフォーマンスを持つ。
論文 参考訳(メタデータ) (2023-05-31T02:17:04Z) - Robust Lottery Tickets for Pre-trained Language Models [57.14316619360376]
本稿では,従来の言語モデルに隠されたロバストなチケットを識別するために,二分重マスクの学習に基づく新しい手法を提案する。
実験結果から, 従来の対向ロバスト性評価法に比べて, 提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2022-11-06T02:59:27Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z) - Sanity Checks for Lottery Tickets: Does Your Winning Ticket Really Win
the Jackpot? [90.50740705956638]
主要なDNNアーキテクチャおよび/またはアプリケーションに勝利のチケットが存在するかどうかを明らかにするための具体的な証拠を示す。
学習率や学習エポックといった重要なトレーニングハイパーパラメータは,それぞれ,優勝チケットを特定できるかどうかと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2021-07-01T01:27:07Z) - Super Tickets in Pre-Trained Language Models: From Model Compression to
Improving Generalization [65.23099004725461]
非常に過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝利チケット」と呼ぶ。
また, ある圧縮比において, 当選チケットの一般化性能は, 一致しただけでなく, フルモデルを上回ることが確認された。
論文 参考訳(メタデータ) (2021-05-25T15:10:05Z) - The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。
そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。
我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文 参考訳(メタデータ) (2021-03-30T17:53:45Z) - Successfully Applying the Stabilized Lottery Ticket Hypothesis to the
Transformer Architecture [47.39346022004215]
安定化された宝くじのプルーニングは, スパシティレベルが最大85%の場合に, マグニチュードプルーニングと同じような性能を示すことを示す。
パラメータの初期符号が具体的ではなく,その値がトレーニングを成功させる主要な要因であることを確認し,獲得した宝くじを見つけるために,等級プルーニングが有効であることを示す。
論文 参考訳(メタデータ) (2020-05-04T15:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。