論文の概要: More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs
- arxiv url: http://arxiv.org/abs/2405.17830v2
- Date: Wed, 02 Oct 2024 02:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:17:31.438051
- Title: More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs
- Title(参考訳): 破滅的フォーミング以上のもの:ドメイン特化LDMの汎用能力の統合
- Authors: Chengyuan Liu, Yangyang Kang, Shihang Wang, Lizhi Qing, Fubang Zhao, Changlong Sun, Kun Kuang, Fei Wu,
- Abstract要約: 大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
- 参考スコア(独自算出の注目度): 40.54076184225558
- License:
- Abstract: The performance on general tasks decreases after Large Language Models (LLMs) are fine-tuned on domain-specific tasks, the phenomenon is known as Catastrophic Forgetting (CF). However, this paper presents a further challenge for real application of domain-specific LLMs beyond CF, called General Capabilities Integration (GCI), which necessitates the integration of both the general capabilities and domain knowledge within a single instance. The objective of GCI is not merely to retain previously acquired general capabilities alongside new domain knowledge, but to harmonize and utilize both sets of skills in a cohesive manner to enhance performance on domain-specific tasks. Taking legal domain as an example, we carefully design three groups of training and testing tasks without lacking practicability, and construct the corresponding datasets. To better incorporate general capabilities across domain-specific scenarios, we introduce ALoRA, which utilizes a multi-head attention module upon LoRA, facilitating direct information transfer from preceding tokens to the current one. This enhancement permits the representation to dynamically switch between domain-specific knowledge and general competencies according to the attention. Extensive experiments are conducted on the proposed tasks. The results exhibit the significance of our setting, and the effectiveness of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
しかし,本論文では,汎用能力統合(General Capabilities Integration, GCI)と呼ばれる,CF以外のドメイン固有のLCMを実際に適用するには,汎用能力とドメイン知識の両方を単一インスタンス内で統合する必要がある,という課題を提起する。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
法的なドメインを例として、実践性に欠けることなく、トレーニングとテストの3つのグループを慎重に設計し、対応するデータセットを構築します。
ドメイン固有のシナリオにまたがって、より一般的な機能を組み込むために、LoRA上のマルチヘッドアテンションモジュールを利用するALoRAを導入し、先行トークンから現在のトークンへの直接的な情報転送を容易にする。
この拡張により、関心に応じてドメイン固有の知識と一般的な能力とを動的に切り替えることができる。
提案課題について大規模な実験を行った。
その結果,設定の意義と手法の有効性が示された。
関連論文リスト
- Role Prompting Guided Domain Adaptation with General Capability Preserve
for Large Language Models [55.51408151807268]
特定のドメインに合わせると、LLM(Large Language Models)は破滅的な忘れを経験する傾向がある。
同時に複数のドメインのための汎用モデルを構築することで、全体的なパフォーマンスが低下することが多い。
RolE Prompting Guided Multi-Domain Adaptation (REGA) 戦略を提案する。
論文 参考訳(メタデータ) (2024-03-05T08:22:41Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Domain Generalization for Domain-Linked Classes [8.738092015092207]
実世界では、クラスはドメインリンクされ、すなわち特定のドメインでのみ表現される。
本稿では,ドメインリンクDG,FONDのためのFair and cONtrastive feature-space regularizationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-01T16:39:50Z) - Domain generalization Person Re-identification on Attention-aware
multi-operation strategery [8.90472129039969]
ドメイン一般化者再識別(DG Re-ID)は、ソースドメイン上でトレーニングされたモデルを、十分に一般化された未確認対象ドメインに直接デプロイすることを目的としている。
既存のDG Re-ID法では、不変演算は領域一般化特徴の抽出に有効である。
DG Re-IDのための注意型マルチオペレーティングストラテジ(AMS)を提案し,より一般化された特徴を抽出した。
論文 参考訳(メタデータ) (2022-10-19T09:18:46Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z) - Exploiting Domain-Specific Features to Enhance Domain Generalization [10.774902700296249]
ドメイン一般化(Domain Generalization, DG)は、観測されていないターゲットドメインで正常に動作するために、複数の観測されたソースドメインからモデルをトレーニングすることを目的としている。
以前のDGアプローチでは、ターゲットドメインを一般化するために、ソース間でのドメイン不変情報を抽出することに重点を置いていた。
本稿ではメタドメイン固有ドメイン不変量(mD)を提案する。
論文 参考訳(メタデータ) (2021-10-18T15:42:39Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Generalized Domain Conditioned Adaptation Network [33.13337928537281]
ドメイン適応(DA)はラベル付きソースドメインで学んだ知識をラベル付けされていないが関連するターゲットドメインに転送しようとする。
DAの最近の進歩は、主にソースとターゲットの分布を調整することによって進みます。
汎用ドメイン条件適応ネットワーク(GDCAN)を開発し、各アテンションモジュールでドメインチャネルのアクティベーションが個別にモデル化されるべきかどうかを自動決定する。
論文 参考訳(メタデータ) (2021-03-23T06:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。