論文の概要: KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.06071v1
- Date: Sun, 08 Dec 2024 21:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:01.984432
- Title: KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
- Title(参考訳): KaSA: 大規模言語モデルの知識を考慮した特異値適応
- Authors: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang,
- Abstract要約: 知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 11.07333593086842
- License:
- Abstract: The increasing sizes of large language models (LLMs) result in significant computational overhead and memory usage when adapting these models to specific tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have been devised to mitigate these challenges by training a small set of parameters for the task-specific updates of the model weights. Among PEFT methods, LoRA stands out for its simplicity and efficiency, inspiring the development of a series of variants. However, LoRA and its successors disregard the knowledge that is noisy or irrelevant to the targeted task, detrimentally impacting model performance and leading to suboptimality. To address this limitation, we introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that leverages singular value decomposition (SVD) with knowledge-aware singular values to dynamically activate knowledge based on its relevance to the task at hand. We conduct extensive experiments across a range of LLMs on tasks spanning natural language understanding (NLU), generation (NLG), instruction following, and commonsense reasoning. The experimental results demonstrate that KaSA consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks and 4 synthetic datasets, underscoring our method's efficacy and adaptability. The source code of our method is available at https://github.com/juyongjiang/KaSA.
- Abstract(参考訳): 大きな言語モデル(LLM)のサイズが大きくなると、特定のタスクやドメインにこれらのモデルを適用する際に、計算オーバーヘッドとメモリ使用量が大幅に増加する。
モデル重みのタスク固有の更新のための小さなパラメータセットをトレーニングすることにより、これらの課題を軽減するために、様々なパラメータ効率の微調整(PEFT)法が考案されている。
PEFTの手法の中で、LoRAはその単純さと効率性を際立っており、一連の変種の開発を刺激している。
しかし、LoRAとその後継者は、目標とするタスクにうるさい、あるいは無関係な知識を無視し、モデルパフォーマンスに有害な影響を与え、過度な最適化につながる。
この制限に対処するために,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題に対する関連性に基づいて,知識を動的に活性化する。
自然言語理解(NLU)、生成(NLG)、命令追従、コモンセンス推論(Commonsense reasoning)にまたがるタスクについて、LLMの幅広い実験を行った。
実験の結果, KaSAは16のベンチマークと4つの合成データセットにおいて, FFTと14のPEFTベースラインを一貫して上回り, 本手法の有効性と適応性を実証した。
私たちのメソッドのソースコードはhttps://github.com/juyongjiang/KaSA.comで公開されています。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。
本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。
その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-04T09:03:18Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models [11.77848664657788]
命令のチューニングは、モデルが新しい知識や能力を得るのではなく、特定のタスク形式に適合するプロセスであることを示す。
この制限は, タスク固有の特徴と異なる, 命令チューニング中に学習した偏りのある特徴に起因していると考えられる。
我々は,新たなデータ合成手法であるDELIAを用いて,命令チューニングにおけるバイアスのある特徴を理想的な特徴の近似に変換する。
論文 参考訳(メタデータ) (2024-08-19T17:56:06Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。