論文の概要: BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models
- arxiv url: http://arxiv.org/abs/2403.18365v1
- Date: Wed, 27 Mar 2024 08:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:37:28.101537
- Title: BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models
- Title(参考訳): BLADE:小さなドメイン特化モデルによるブラックボックス大言語モデルの強化
- Authors: Haitao Li, Qingyao Ai, Jia Chen, Qian Dong, Zhijing Wu, Yiqun Liu, Chong Chen, Qi Tian,
- Abstract要約: 大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
- 参考スコア(独自算出の注目度): 56.89958793648104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) like ChatGPT and GPT-4 are versatile and capable of addressing a diverse range of tasks. However, general LLMs, which are developed on open-domain data, may lack the domain-specific knowledge essential for tasks in vertical domains, such as legal, medical, etc. To address this issue, previous approaches either conduct continuous pre-training with domain-specific data or employ retrieval augmentation to support general LLMs. Unfortunately, these strategies are either cost-intensive or unreliable in practical applications. To this end, we present a novel framework named BLADE, which enhances Black-box LArge language models with small Domain-spEcific models. BLADE consists of a black-box LLM and a small domain-specific LM. The small LM preserves domain-specific knowledge and offers specialized insights, while the general LLM contributes robust language comprehension and reasoning capabilities. Specifically, our method involves three steps: 1) pre-training the small LM with domain-specific data, 2) fine-tuning this model using knowledge instruction data, and 3) joint Bayesian optimization of the general LLM and the small LM. Extensive experiments conducted on public legal and medical benchmarks reveal that BLADE significantly outperforms existing approaches. This shows the potential of BLADE as an effective and cost-efficient solution in adapting general LLMs for vertical domains.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
しかし、オープンドメインデータに基づいて開発された一般LLMは、法律や医療など、垂直ドメインのタスクに必要なドメイン固有の知識を欠いている可能性がある。
この問題に対処するため、従来のアプローチでは、ドメイン固有データによる継続的な事前トレーニングや、一般的なLLMをサポートするために検索拡張が用いられていた。
残念ながら、これらの戦略はコストがかかるか、実用的なアプリケーションでは信頼できない。
この目的のために、BLADEという新しいフレームワークを提案し、小さなドメイン-spEcificモデルでBlack-box LArge言語モデルを拡張する。
BLADE はブラックボックス LLM と小さなドメイン固有の LM で構成されている。
小さなLMはドメイン固有の知識を保持し、専門的な洞察を提供する一方、一般的なLMは堅牢な言語理解と推論能力に寄与する。
特に,本手法では3つのステップを踏む。
1)小さなLMをドメイン固有データで事前訓練すること。
2)知識教育データを用いてこのモデルを微調整し、
3) 一般LLMと小型LMのベイズ最適化について検討した。
公的法と医学のベンチマークで実施された大規模な実験により、BLADEは既存のアプローチよりも大幅に優れていることが判明した。
このことは、BLADE が垂直領域に対して一般 LLM を適用する上で、効果的でコスト効率のよいソリューションとしての可能性を示している。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。