論文の概要: Pruning as a Domain-specific LLM Extractor
- arxiv url: http://arxiv.org/abs/2405.06275v1
- Date: Fri, 10 May 2024 07:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:27:43.232495
- Title: Pruning as a Domain-specific LLM Extractor
- Title(参考訳): ドメイン特異的LDMエクストラクタとしてのプルーニング
- Authors: Nan Zhang, Yanchi Liu, Xujiang Zhao, Wei Cheng, Runxue Bao, Rui Zhang, Prasenjit Mitra, Haifeng Chen,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な習熟度を示した。
LLMのサイズを減らすため, モデル刈り込み技術の研究はほとんど行われていない。
この研究は、LLM上のドメイン固有圧縮のための革新的な非構造的デュアルプルーニング手法であるD-Prunerを導入する。
- 参考スコア(独自算出の注目度): 44.81262364608468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable proficiency across a wide array of NLP tasks. However, the escalation in model size also engenders substantial deployment costs. While few efforts have explored model pruning techniques to reduce the size of LLMs, they mainly center on general or task-specific weights. This leads to suboptimal performance due to lacking specificity on the target domain or generality on different tasks when applied to domain-specific challenges. This work introduces an innovative unstructured dual-pruning methodology, D-Pruner, for domain-specific compression on LLM. It extracts a compressed, domain-specific, and task-agnostic LLM by identifying LLM weights that are pivotal for general capabilities, like linguistic capability and multi-task solving, and domain-specific knowledge. More specifically, we first assess general weight importance by quantifying the error incurred upon their removal with the help of an open-domain calibration dataset. Then, we utilize this general weight importance to refine the training loss, so that it preserves generality when fitting into a specific domain. Moreover, by efficiently approximating weight importance with the refined training loss on a domain-specific calibration dataset, we obtain a pruned model emphasizing generality and specificity. Our comprehensive experiments across various tasks in healthcare and legal domains show the effectiveness of D-Pruner in domain-specific compression. Our code is available at https://github.com/psunlpgroup/D-Pruner.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な習熟度を示した。
しかし、モデルサイズのエスカレーションによって、相当なデプロイメントコストがもたらされる。
LLMのサイズを減らすためのモデルプルーニング技術の研究はほとんど行われていないが、それらは主に一般的なものやタスク固有の重みに重点を置いている。
これは、ドメイン固有の課題に適用した場合、対象のドメインに対する特異性や、異なるタスクに対する一般性に欠けるため、最適以下のパフォーマンスをもたらす。
この研究は、LLM上のドメイン固有圧縮のための革新的な非構造的デュアルプルーニング手法であるD-Prunerを導入する。
言語能力やマルチタスク解決、ドメイン固有の知識など、一般的な能力に欠かせないLLM重みを識別することで、圧縮された、ドメイン固有の、タスクに依存しないLLMを抽出する。
具体的には,開放領域キャリブレーションデータセットの助けを借りて,除去時に発生する誤差を定量化することにより,まず一般的な重み付けの重要性を評価する。
そして、この一般的な重み付けの重要さを利用してトレーニング損失を洗練し、特定のドメインに適合する際の一般性を保ちます。
さらに、ドメイン固有のキャリブレーションデータセット上での訓練損失の補正により、重みの重みを効率的に近似することにより、一般化と特異性を強調したプルーンドモデルを得る。
医療分野や法律分野における様々なタスクに対する総合的な実験は、ドメイン固有の圧縮におけるD-Prunerの有効性を示している。
私たちのコードはhttps://github.com/psunlpgroup/D-Pruner.comで利用可能です。
関連論文リスト
- Learning to Discover Knowledge: A Weakly-Supervised Partial Domain Adaptation Approach [20.899013563493202]
ドメイン適応は、リッチアノテーションでソースドメインからの知識を活用することで、魅力的なパフォーマンスを示している。
特定の目標タスクに対して、関連するおよび高品質なソースドメインを収集するのは煩雑である。
本稿では、自己ペースト転送分類器学習(SP-TCL)と呼ばれる、単純で効果的なドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T12:54:07Z) - More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文 参考訳(メタデータ) (2024-05-28T05:00:12Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - INSURE: An Information Theory Inspired Disentanglement and Purification
Model for Domain Generalization [55.86299081580768]
ドメイン一般化 (Domain Generalization, DG) は、観測された複数のソースドメインのトレーニングのみにより、目に見えないターゲットドメイン上の一般化可能なモデルを学習することを目的としている。
本稿では,情報理論iNspired diSentanglement and purification modEl (INSURE)を提案する。
PACS,OfficeHome,TerraIncognita,DomainNetなど,広く使用されている4つのDGベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-09-08T01:41:35Z) - MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization [55.06956781674986]
我々は、各ソースドメインにいくつかのラベル情報がある半教師付きドメイン一般化タスクの解決に頼っている。
我々は、MultiMatchを提案し、FixMatchをマルチタスク学習フレームワークに拡張し、SSDGのための高品質な擬似ラベルを生成する。
提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T14:44:33Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。