Fugu-MT 論文翻訳(概要): KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models

論文の概要: KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models

arxiv url: http://arxiv.org/abs/2402.02801v1
Date: Mon, 5 Feb 2024 08:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 17:39:39.825317
Title: KS-Lottery: Finding Certified Lottery Tickets for Multilingual Language Models
Title（参考訳）: ks-lottery:多言語モデルのための認定抽選券を見つける
Authors: Fei Yuan, Chang Ma, Shuai Yuan, Qiushi Sun, Lei Li
Abstract要約: 宝くじ仮説は、ランダムなニューラルネットワーク内での「当選チケット」の存在を仮定する。 KS-Lottery は多言語微調整に非常に有効な LLM パラメータの小さなサブセットを同定する手法である。
参考スコア（独自算出の注目度）: 18.671588789169693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lottery ticket hypothesis posits the existence of ``winning tickets'' within a randomly initialized neural network. Do winning tickets exist for LLMs in fine-tuning scenarios? How can we find such winning tickets? In this paper, we propose KS-Lottery, a method to identify a small subset of LLM parameters highly effective in multilingual fine-tuning. Our key idea is to use Kolmogorov-Smirnov Test to analyze the distribution shift of parameters before and after fine-tuning. We further theoretically prove that KS-Lottery can find the certified winning tickets in the embedding layer, fine-tuning on the found parameters is guaranteed to perform as well as full fine-tuning. Comparing KS-Lottery with other parameter-efficient tuning algorithms on translation tasks, the experimental results show that KS-Lottery finds a much smaller set of parameters for fine-tuning while achieving the comparable performance as full fine-tuning LLM. Surprisingly, we find that fine-tuning 18 tokens' embedding of LLaMA suffices to reach the fine-tuning translation performance. Code and model will be released to the public.
Abstract（参考訳）: 宝くじ仮説は、ランダムに初期化されたニューラルネットワーク内で「勝利チケット」の存在を仮定する。微調整シナリオにおけるLLMの当選チケットは存在するか? そんな入賞券をどうやって見つけるの? 本稿では,多言語微調整に非常に有効なLLMパラメータの小さなサブセットを同定するKS-Lotteryを提案する。我々はKolmogorov-Smirnov Testを用いて、微調整前後のパラメータの分布変化を分析する。さらに ks-lottery が組込み層で認定入賞チケットを検索できることを理論的に証明し、得られたパラメータの微調整と完全な微調整が保証される。 KS-Lotteryと他のパラメータ効率の調整アルゴリズムとの比較実験により,KS-Lotteryは細調整のためのパラメータセットがはるかに小さく,かつ完全な微調整LDMと同等の性能を実現していることがわかった。驚いたことに、微調整された18個のトークンのLLaMA埋め込みは、微調整された翻訳性能に到達するのに十分である。コードとモデルは一般公開される予定だ。

関連論文リスト

Combining the Best of Both Worlds: A Method for Hybrid NMT and LLM Translation [12.59407158733001]
大規模言語モデル(LLM)は、機械翻訳(MT)など、様々な下流タスクにおいて有望なパフォーマンスを示す。しかし、翻訳にLLMを使うことは、高い計算コストとかなりのレイテンシに悩まされる。本稿では,ソース文の特徴を生かした,新規で素直な判定手法を提案する。
論文参考訳（メタデータ） (2025-05-19T06:50:52Z)
Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs [44.58185032979828]
Lottery Ticket Adaptation (LoTA) はスパース適応法であり、モデルのスパースサブネットワークのみを特定し最適化する。 LoTAは、完全な微調整と低ランク適応(LoRA)よりも優れたパフォーマンスを得る
論文参考訳（メタデータ） (2024-06-24T16:58:23Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
Robust Lottery Tickets for Pre-trained Language Models [57.14316619360376]
本稿では,従来の言語モデルに隠されたロバストなチケットを識別するために,二分重マスクの学習に基づく新しい手法を提案する。実験結果から, 従来の対向ロバスト性評価法に比べて, 提案手法の大幅な改善が示された。
論文参考訳（メタデータ） (2022-11-06T02:59:27Z)
Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文参考訳（メタデータ） (2022-05-25T18:00:09Z)
Universality of Deep Neural Network Lottery Tickets: A Renormalization Group Perspective [89.19516919095904]
1つのタスクのコンテキストで見られるチケットは、おそらくは異なるアーキテクチャにわたって、同様のタスクに転送できる。我々は、理論物理学において最も成功した道具の1つである再正規化群理論を利用する。ここでは,大規模抽選チケット実験における当選チケットの普遍性を検討するとともに,スパース機械学習の分野での反復的等級プルーニングの成功に新たな光を当てる。
論文参考訳（メタデータ） (2021-10-07T06:50:16Z)
Sanity Checks for Lottery Tickets: Does Your Winning Ticket Really Win the Jackpot? [90.50740705956638]
主要なDNNアーキテクチャおよび/またはアプリケーションに勝利のチケットが存在するかどうかを明らかにするための具体的な証拠を示す。学習率や学習エポックといった重要なトレーニングハイパーパラメータは,それぞれ,優勝チケットを特定できるかどうかと高い相関関係があることが判明した。
論文参考訳（メタデータ） (2021-07-01T01:27:07Z)
Super Tickets in Pre-Trained Language Models: From Model Compression to Improving Generalization [65.23099004725461]
非常に過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝利チケット」と呼ぶ。また, ある圧縮比において, 当選チケットの一般化性能は, 一致しただけでなく, フルモデルを上回ることが確認された。
論文参考訳（メタデータ） (2021-05-25T15:10:05Z)
Communication-Efficient and Personalized Federated Lottery Ticket Learning [44.593986790651805]
宝くじ仮説では、ディープニューラルネットワーク(すなわちグラウンドネットワーク)には多数のワークス(すなわち当選チケット)が含まれていると主張している。通信効率向上のためにダウンリンクブロードキャストを利用したパーソナライズされたコミュニケーション効率の高いフェデレーション宝くじ学習アルゴリズムCELLを提案します。
論文参考訳（メタデータ） (2021-04-26T12:01:41Z)
The Elastic Lottery Ticket Hypothesis [106.79387235014379]
Lottery Ticket Hypothesisは、スパーストレーニング可能なワークスや優勝チケットの識別に注意を向けています。そのような勝利チケットを識別する最も効果的な方法は、まだ反復マグニチュードベースのPruningです。我々は,同じモデルファミリーの異なるネットワークから得られる当選チケットを微調整する様々な戦略を提案する。
論文参考訳（メタデータ） (2021-03-30T17:53:45Z)
Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture [47.39346022004215]
安定化された宝くじのプルーニングは, スパシティレベルが最大85%の場合に, マグニチュードプルーニングと同じような性能を示すことを示す。パラメータの初期符号が具体的ではなく,その値がトレーニングを成功させる主要な要因であることを確認し,獲得した宝くじを見つけるために,等級プルーニングが有効であることを示す。
論文参考訳（メタデータ） (2020-05-04T15:17:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。