論文の概要: KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.06071v1
- Date: Sun, 08 Dec 2024 21:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:01.984432
- Title: KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models
- Title(参考訳): KaSA: 大規模言語モデルの知識を考慮した特異値適応
- Authors: Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang,
- Abstract要約: 知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 11.07333593086842
- License:
- Abstract: The increasing sizes of large language models (LLMs) result in significant computational overhead and memory usage when adapting these models to specific tasks or domains. Various parameter-efficient fine-tuning (PEFT) methods have been devised to mitigate these challenges by training a small set of parameters for the task-specific updates of the model weights. Among PEFT methods, LoRA stands out for its simplicity and efficiency, inspiring the development of a series of variants. However, LoRA and its successors disregard the knowledge that is noisy or irrelevant to the targeted task, detrimentally impacting model performance and leading to suboptimality. To address this limitation, we introduce Knowledge-aware Singular-value Adaptation (KaSA), a PEFT method that leverages singular value decomposition (SVD) with knowledge-aware singular values to dynamically activate knowledge based on its relevance to the task at hand. We conduct extensive experiments across a range of LLMs on tasks spanning natural language understanding (NLU), generation (NLG), instruction following, and commonsense reasoning. The experimental results demonstrate that KaSA consistently outperforms FFT and 14 popular PEFT baselines across 16 benchmarks and 4 synthetic datasets, underscoring our method's efficacy and adaptability. The source code of our method is available at https://github.com/juyongjiang/KaSA.
- Abstract(参考訳): 大きな言語モデル(LLM)のサイズが大きくなると、特定のタスクやドメインにこれらのモデルを適用する際に、計算オーバーヘッドとメモリ使用量が大幅に増加する。
モデル重みのタスク固有の更新のための小さなパラメータセットをトレーニングすることにより、これらの課題を軽減するために、様々なパラメータ効率の微調整(PEFT)法が考案されている。
PEFTの手法の中で、LoRAはその単純さと効率性を際立っており、一連の変種の開発を刺激している。
しかし、LoRAとその後継者は、目標とするタスクにうるさい、あるいは無関係な知識を無視し、モデルパフォーマンスに有害な影響を与え、過度な最適化につながる。
この制限に対処するために,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題に対する関連性に基づいて,知識を動的に活性化する。
自然言語理解(NLU)、生成(NLG)、命令追従、コモンセンス推論(Commonsense reasoning)にまたがるタスクについて、LLMの幅広い実験を行った。
実験の結果, KaSAは16のベンチマークと4つの合成データセットにおいて, FFTと14のPEFTベースラインを一貫して上回り, 本手法の有効性と適応性を実証した。
私たちのメソッドのソースコードはhttps://github.com/juyongjiang/KaSA.comで公開されています。
関連論文リスト
- Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
常識推論,自然言語理解,自然言語生成を対象とする3つのベンチマークの評価を通じて,JoLAが既存の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Unified Parameter-Efficient Unlearning for LLMs [25.195126838721492]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクに対する高度な理解と推論を可能にする。
これは、モデルが不注意に機密情報や望ましくない情報を保持および拡散する可能性があるため、重要なプライバシーとセキュリティ上の懸念を提起する。
本稿では,非学習タスクを体系的に分類し,影響関数を用いた高精度な調整を行う,新しいインスタンス単位のアンラーニングフレームワークLLMEraserを紹介する。
論文 参考訳(メタデータ) (2024-11-30T07:21:02Z) - Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。
本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。
その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-04T09:03:18Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - DELIA: Diversity-Enhanced Learning for Instruction Adaptation in Large Language Models [11.77848664657788]
命令のチューニングは、モデルが新しい知識や能力を得るのではなく、特定のタスク形式に適合するプロセスであることを示す。
この制限は, タスク固有の特徴と異なる, 命令チューニング中に学習した偏りのある特徴に起因していると考えられる。
我々は,新たなデータ合成手法であるDELIAを用いて,命令チューニングにおけるバイアスのある特徴を理想的な特徴の近似に変換する。
論文 参考訳(メタデータ) (2024-08-19T17:56:06Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Empirical Studies of Parameter Efficient Methods for Large Language Models of Code and Knowledge Transfer to R [1.9799527196428242]
コード要約と生成のための大規模言語モデル上でPEFT法, LoRA, Compacter, IA3を評価する。
我々の実験によると、LoRAはすべての設定でCompacterとIA3を一貫して上回っている。
我々の研究は、Rを含む見知らぬ言語のためのコード知能タスクの開発における将来の研究を導くことができる。
論文 参考訳(メタデータ) (2024-03-16T03:12:45Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。