論文の概要: KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2402.02801v2
- Date: Mon, 3 Jun 2024 07:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 19:13:07.168358
- Title: KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models
- Title(参考訳): KS-Lottery:多言語言語モデルのための認証されたロッキーティケットを見つける
- Authors: Fei Yuan, Chang Ma, Shuai Yuan, Qiushi Sun, Lei Li,
- Abstract要約: 宝くじ仮説は、ランダムなニューラルネットワーク内での「当選チケット」の存在を仮定する。
KS-Lottery は多言語微調整に非常に有効な LLM パラメータの小さなサブセットを同定する手法である。
微調整された18個のトークンのLLaMA埋め込みは、微調整された翻訳性能に到達するのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 17.40379289084228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lottery ticket hypothesis posits the existence of ``winning tickets'' within a randomly initialized neural network. Do winning tickets exist for LLMs in fine-tuning scenarios? How can we find such winning tickets? In this paper, we propose KS-Lottery, a method to identify a small subset of LLM parameters highly effective in multilingual fine-tuning. Our key idea is to use Kolmogorov-Smirnov Test to analyze the distribution shift of parameters before and after fine-tuning. We further theoretically prove that KS-Lottery can find the certified winning tickets in the embedding layer, fine-tuning on the found parameters is guaranteed to perform as well as full fine-tuning. Comparing KS-Lottery with other parameter-efficient tuning algorithms on translation tasks, the experimental results show that KS-Lottery finds a much smaller set of parameters for fine-tuning while achieving the comparable performance as full fine-tuning LLM. Surprisingly, we find that fine-tuning 18 tokens' embedding of LLaMA suffices to reach the fine-tuning translation performance~\footnote{https://github.com/CONE-MT/KS-Lottery.}.
- Abstract(参考訳): 宝くじの仮説は、ランダムに初期化されたニューラルネットワークの中に 'winning ticket'' が存在することを示唆している。
微調整シナリオにおけるLLMの当選チケットは存在するか?
そんな入賞券はどうやって見つけられるのですか。
本稿では,多言語微調整に非常に有効なLLMパラメータの小さなサブセットを同定するKS-Lotteryを提案する。
我々はKolmogorov-Smirnov Testを用いて、微調整前後のパラメータの分布変化を分析する。
さらに我々は,KS-Lotteryが組込み層で証明された当選チケットを見つけることができることを理論的に証明し,検出したパラメータの微調整を保証し,完全な微調整を行う。
KS-Lotteryと他のパラメータ効率の調整アルゴリズムとの比較実験により,KS-Lotteryは細調整のためのパラメータセットがはるかに小さく,かつ完全な微調整LDMと同等の性能を実現していることがわかった。
驚いたことに、18個の微調整されたLLaMAの埋め込みは、微調整された翻訳性能~\footnote{https://github.com/CONE-MT/KS-Lotteryに到達するのに十分である。
と。
関連論文リスト
- Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs [44.58185032979828]
Lottery Ticket Adaptation (LoTA) はスパース適応法であり、モデルのスパースサブネットワークのみを特定し最適化する。
LoTAは、完全な微調整と低ランク適応(LoRA)よりも優れたパフォーマンスを得る
論文 参考訳(メタデータ) (2024-06-24T16:58:23Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Robust Lottery Tickets for Pre-trained Language Models [57.14316619360376]
本稿では,従来の言語モデルに隠されたロバストなチケットを識別するために,二分重マスクの学習に基づく新しい手法を提案する。
実験結果から, 従来の対向ロバスト性評価法に比べて, 提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2022-11-06T02:59:27Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z) - Universality of Deep Neural Network Lottery Tickets: A Renormalization
Group Perspective [89.19516919095904]
1つのタスクのコンテキストで見られるチケットは、おそらくは異なるアーキテクチャにわたって、同様のタスクに転送できる。
我々は、理論物理学において最も成功した道具の1つである再正規化群理論を利用する。
ここでは,大規模抽選チケット実験における当選チケットの普遍性を検討するとともに,スパース機械学習の分野での反復的等級プルーニングの成功に新たな光を当てる。
論文 参考訳(メタデータ) (2021-10-07T06:50:16Z) - Sanity Checks for Lottery Tickets: Does Your Winning Ticket Really Win
the Jackpot? [90.50740705956638]
主要なDNNアーキテクチャおよび/またはアプリケーションに勝利のチケットが存在するかどうかを明らかにするための具体的な証拠を示す。
学習率や学習エポックといった重要なトレーニングハイパーパラメータは,それぞれ,優勝チケットを特定できるかどうかと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2021-07-01T01:27:07Z) - Super Tickets in Pre-Trained Language Models: From Model Compression to
Improving Generalization [65.23099004725461]
非常に過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝利チケット」と呼ぶ。
また, ある圧縮比において, 当選チケットの一般化性能は, 一致しただけでなく, フルモデルを上回ることが確認された。
論文 参考訳(メタデータ) (2021-05-25T15:10:05Z) - Communication-Efficient and Personalized Federated Lottery Ticket
Learning [44.593986790651805]
宝くじ仮説では、ディープニューラルネットワーク(すなわちグラウンドネットワーク)には多数のワークス(すなわち当選チケット)が含まれていると主張している。
通信効率向上のためにダウンリンクブロードキャストを利用したパーソナライズされたコミュニケーション効率の高いフェデレーション宝くじ学習アルゴリズムCELLを提案します。
論文 参考訳(メタデータ) (2021-04-26T12:01:41Z) - Successfully Applying the Stabilized Lottery Ticket Hypothesis to the
Transformer Architecture [47.39346022004215]
安定化された宝くじのプルーニングは, スパシティレベルが最大85%の場合に, マグニチュードプルーニングと同じような性能を示すことを示す。
パラメータの初期符号が具体的ではなく,その値がトレーニングを成功させる主要な要因であることを確認し,獲得した宝くじを見つけるために,等級プルーニングが有効であることを示す。
論文 参考訳(メタデータ) (2020-05-04T15:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。