論文の概要: Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
- arxiv url: http://arxiv.org/abs/2402.05140v3
- Date: Fri, 26 Jul 2024 01:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:21:50.261955
- Title: Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
- Title(参考訳): Tag-LLM:特殊ドメインのための汎用LLMの再利用
- Authors: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。
本研究は、汎用LLMを特殊領域の効率的なタスク解決器に再利用する方法を探求する。
- 参考スコア(独自算出の注目度): 9.600277231719874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in understanding and generating natural language. However, their capabilities wane in highly specialized domains underrepresented in the pretraining corpus, such as physical and biomedical sciences. This work explores how to repurpose general LLMs into effective task solvers for specialized domains. We introduce a novel, model-agnostic framework for learning custom input tags, which are parameterized as continuous vectors appended to the LLM's embedding layer, to condition the LLM. We design two types of input tags: domain tags are used to delimit specialized representations (e.g., chemical formulas) and provide domain-relevant context; function tags are used to represent specific functions (e.g., predicting molecular properties) and compress function-solving instructions. We develop a three-stage protocol to learn these tags using auxiliary data and domain knowledge. By explicitly disentangling task domains from task functions, our method enables zero-shot generalization to unseen problems through diverse combinations of the input tags. It also boosts LLM's performance in various specialized domains, such as predicting protein or chemical properties and modeling drug-target interactions, outperforming expert models tailored to these tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。
しかし、その能力は、身体科学や生物医学など、事前訓練されたコーパスにおいて、高度に専門化された領域において低下した。
本研究は、汎用LLMを特殊領域の効率的なタスク解決器に再利用する方法を探求する。
LLMの埋め込み層に付加される連続ベクトルとしてパラメータ化されるカスタム入力タグを学習するための,新しいモデルに依存しないフレームワークを提案する。
ドメインタグは、特殊表現(例えば、化学式)を分離し、ドメイン関連コンテキストを提供するのに使われ、関数タグは特定の関数(例えば、分子特性の予測)を表現し、関数解決命令を圧縮するために使用される。
補助データとドメイン知識を用いて,これらのタグを学習するための3段階のプロトコルを開発した。
タスクドメインをタスク関数から明示的に切り離すことにより、入力タグの多種多様な組み合わせによってゼロショットの一般化による問題発見を可能にする。
また、タンパク質や化学的性質の予測や薬物と標的の相互作用のモデリングなど、様々な専門分野におけるLLMのパフォーマンスも向上し、これらのタスクに適した専門家モデルよりも優れています。
関連論文リスト
- Decoding Time Series with LLMs: A Multi-Agent Framework for Cross-Domain Annotation [56.78444462585225]
TESSAは、時系列データに対する一般的なアノテーションとドメイン固有のアノテーションの両方を自動的に生成するように設計されたマルチエージェントシステムである。
General Agentは複数のソースドメインにまたがる共通パターンと知識をキャプチャし、時系列とテキストの両方の機能を利用する。
ドメイン固有のエージェントは、ターゲットドメインからの限定アノテーションを使用して、ドメイン固有の用語を学び、ターゲットアノテーションを生成する。
論文 参考訳(メタデータ) (2024-10-22T22:43:14Z) - Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。
LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。
SMART-SLICはドメイン固有のLLMフレームワークである。
論文 参考訳(メタデータ) (2024-10-03T17:40:55Z) - More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文 参考訳(メタデータ) (2024-05-28T05:00:12Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - DRAK: Unlocking Molecular Insights with Domain-Specific Retrieval-Augmented Knowledge in LLMs [6.728130796437259]
DRAK(Domain-specific Retrieval-Augmented Knowledge)は、大規模言語モデルのための非パラメトリックな知識注入フレームワークである。
DRAKは、分子領域と幅広い分析タスクを扱う能力において、深い専門知識を発達させてきた。
私たちのコードはまもなく利用可能になります。
論文 参考訳(メタデータ) (2024-03-04T15:04:05Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Combining Language Models For Specialized Domains: A Colorful Approach [14.124988885323585]
ドメイン固有または二次のLMを汎用のLMに統合する新しいアプローチを導入する。
この戦略は、各単語が一般またはドメイン固有のLMと関連していることを示すラベル付け、または「色付け」を含む。
色付き単語を含む推論を効果的に処理するビーム探索アルゴリズムを最適化したアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-30T16:35:55Z) - G-MAP: General Memory-Augmented Pre-trained Language Model for Domain
Tasks [68.87524746922263]
G-MAP(General Memory Augmented Pre-trained Language Model)の新たなフレームワークを提案する。
G-MAPは、凍った一般PLMから構築されたメモリ表現によって、一般知識を失うことなくドメイン固有のPLMを増強する。
各種分野(生物・コンピュータ科学出版物,ニュース,レビュー)におけるG-MAPの有効性とタスクの種類(テキスト分類,QA,NER)について示す。
論文 参考訳(メタデータ) (2022-12-07T13:07:24Z) - Set-based Meta-Interpolation for Few-Task Meta-Learning [79.4236527774689]
そこで本研究では,メタトレーニングタスクの分散化を目的とした,ドメインに依存しないタスク拡張手法Meta-Interpolationを提案する。
様々な領域にまたがる8つのデータセットに対してメタ補間の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2022-05-20T06:53:03Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。