論文の概要: FineScope : Precision Pruning for Domain-Specialized Large Language Models Using SAE-Guided Self-Data Cultivation
- arxiv url: http://arxiv.org/abs/2505.00624v1
- Date: Thu, 01 May 2025 16:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.365235
- Title: FineScope : Precision Pruning for Domain-Specialized Large Language Models Using SAE-Guided Self-Data Cultivation
- Title(参考訳): ファインスコープ : SAE誘導型自己データ培養を用いたドメイン特化大言語モデルの精度向上
- Authors: Chaitali Bhattacharyya, Yeseong Kim,
- Abstract要約: FineScopeは、より大きな事前訓練されたモデルからドメイン最適化言語モデルを導出するためのフレームワークである。
構造的プルーニングをドメイン固有の制約で適用し、結果のモデルが対象ドメインに不可欠な知識を保持することを保証します。
実験とアブレーション実験により、FinScopeは高い競争力を発揮することが示された。
- 参考スコア(独自算出の注目度): 1.8816124486165122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) from scratch requires significant computational resources, driving interest in developing smaller, domain-specific LLMs that maintain both efficiency and strong task performance. Medium-sized models such as LLaMA, llama} have served as starting points for domain-specific adaptation, but they often suffer from accuracy degradation when tested on specialized datasets. We introduce FineScope, a framework for deriving compact, domain-optimized LLMs from larger pretrained models. FineScope leverages the Sparse Autoencoder (SAE) framework, inspired by its ability to produce interpretable feature representations, to extract domain-specific subsets from large datasets. We apply structured pruning with domain-specific constraints, ensuring that the resulting pruned models retain essential knowledge for the target domain. To further enhance performance, these pruned models undergo self-data distillation, leveraging SAE-curated datasets to restore key domain-specific information lost during pruning. Extensive experiments and ablation studies demonstrate that FineScope achieves highly competitive performance, outperforming several large-scale state-of-the-art LLMs in domain-specific tasks. Additionally, our results show that FineScope enables pruned models to regain a substantial portion of their original performance when fine-tuned with SAE-curated datasets. Furthermore, applying these datasets to fine-tune pretrained LLMs without pruning also improves their domain-specific accuracy, highlighting the robustness of our approach. The code will be released.
- Abstract(参考訳): 大規模言語モデル(LLM)をスクラッチからトレーニングするには、計算資源が大幅に必要であり、効率性と高いタスク性能を維持するため、より小型でドメイン固有のLLMの開発に関心を向ける。
LLaMAやllamaのような中規模のモデルはドメイン固有の適応の出発点として機能しているが、特殊なデータセットでテストすると精度が劣化することが多い。
より大規模な事前学習モデルからコンパクトでドメイン最適化 LLM を導出するフレームワークである FineScope を紹介する。
FineScopeはSparse Autoencoder(SAE)フレームワークを活用し、解釈可能な特徴表現を生成し、大きなデータセットからドメイン固有のサブセットを抽出する能力にインスパイアされている。
我々は、ドメイン固有の制約で構造化プルーニングを適用し、得られたプルーニングモデルがターゲットドメインに不可欠な知識を保持することを保証する。
さらなる性能向上のために、これらのプルーニングされたモデルは自己データ蒸留を行い、SAE処理したデータセットを活用してプルーニング中に失われた重要なドメイン固有情報を復元する。
大規模な実験とアブレーション研究により、FinScopeは競争力が高く、ドメイン固有のタスクにおいていくつかの大規模LLMよりも優れていたことが示されている。
さらに,我々はFineScopeにより,SAE処理したデータセットを微調整した場合に,プルーニングされたモデルが元の性能のかなりの部分を取り戻すことができることを示した。
さらに、これらのデータセットを刈り取らずに微調整したLLMに適用することで、ドメイン固有の精度も向上し、我々のアプローチの堅牢性を強調します。
コードはリリースされます。
関連論文リスト
- Enhancing Domain-Specific Encoder Models with LLM-Generated Data: How to Leverage Ontologies, and How to Do Without Them [9.952432291248954]
限られたデータを持つ領域におけるエンコーダモデルの連続事前学習におけるLLM生成データの利用について検討する。
侵入生物学における埋め込みモデルの性能を評価するためのベンチマークをコンパイルする。
提案手法は,小さなエンコーダモデルのドメイン固有理解を向上させるために,完全自動パイプラインを実現することを実証した。
論文 参考訳(メタデータ) (2025-03-27T21:51:24Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。
このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。
本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文 参考訳(メタデータ) (2025-01-09T14:00:01Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Pruning as a Domain-specific LLM Extractor [44.81262364608468]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な習熟度を示した。
LLMのサイズを減らすため, モデル刈り込み技術の研究はほとんど行われていない。
この研究は、LLM上のドメイン固有圧縮のための革新的な非構造的デュアルプルーニング手法であるD-Prunerを導入する。
論文 参考訳(メタデータ) (2024-05-10T07:05:02Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。
我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。
本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-15T16:30:14Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Generalized Semantic Segmentation by Self-Supervised Source Domain
Projection and Multi-Level Contrastive Learning [79.0660895390689]
ソースドメインでトレーニングされたディープネットワークは、未確認のターゲットドメインデータでテストした場合、パフォーマンスが低下している。
汎用セマンティックセグメンテーションのためのドメイン・プロジェクションとコントラシブ・ラーニング(DPCL)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T13:07:14Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。