論文の概要: Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
- arxiv url: http://arxiv.org/abs/2402.05140v1
- Date: Tue, 6 Feb 2024 20:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:57:29.443611
- Title: Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
- Title(参考訳): Tag-LLM:特殊ドメインのための汎用LLMの再利用
- Authors: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis,
Nicolo Fusi
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。
本研究は、汎用LLMを特殊領域の効率的なタスク解決器に再利用する方法を探求する。
- 参考スコア(独自算出の注目度): 10.299618586418761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in
understanding and generating natural language. However, their capabilities wane
in highly specialized domains underrepresented in the pretraining corpus, such
as physical and biomedical sciences. This work explores how to repurpose
general LLMs into effective task solvers for specialized domains. We introduce
a novel, model-agnostic framework for learning custom input tags, which are
parameterized as continuous vectors appended to the LLM's embedding layer, to
condition the LLM. We design two types of input tags: domain tags are used to
delimit specialized representations (e.g., chemical formulas) and provide
domain-relevant context; function tags are used to represent specific functions
(e.g., predicting molecular properties) and compress function-solving
instructions. We develop a three-stage protocol to learn these tags using
auxiliary data and domain knowledge. By explicitly disentangling task domains
from task functions, our method enables zero-shot generalization to unseen
problems through diverse combinations of the input tags. It also boosts LLM's
performance in various specialized domains, such as predicting protein or
chemical properties and modeling drug-target interactions, outperforming expert
models tailored to these tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。
しかし、その能力は、物理科学や生物医学などの事前学習コーパスで過小評価された高度に専門化された領域で低下した。
本研究は、汎用LLMを専門分野の効率的なタスク解決に活用する方法を探る。
LLMの埋め込み層に付加される連続ベクトルとしてパラメータ化されるカスタム入力タグを学習するための,新しいモデルに依存しないフレームワークを提案する。
ドメインタグは特殊表現(例えば化学式)を分離し、ドメイン関連コンテキストを提供するのに使われ、関数タグは特定の関数(例えば分子特性の予測)を表すのに使われ、関数解決命令は圧縮される。
補助データとドメイン知識を用いて,これらのタグを学習するための3段階のプロトコルを開発した。
タスク領域をタスク関数から明示的に分離することにより、入力タグの多様な組み合わせにより、ゼロショット一般化が可能となる。
また、タンパク質や化学的性質の予測や薬物と標的の相互作用のモデリングなど、様々な専門分野におけるLLMの性能を高める。
関連論文リスト
- Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。
彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。
これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文 参考訳(メタデータ) (2025-02-15T07:43:43Z) - LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文 参考訳(メタデータ) (2025-01-30T22:21:12Z) - On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
ドメイン固有の画像キャプチャーペアから多様な視覚的命令タスクを生成する視覚的命令合成器を開発した。
ドメイン固有のポストトレーニングにおけるタスクの多様性を高めるために、単段階トレーニングパイプラインを適用します。
バイオメディシンと食品の2つの領域で、異なるソースとスケールのMLLMの訓練後実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。
LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。
SMART-SLICはドメイン固有のLLMフレームワークである。
論文 参考訳(メタデータ) (2024-10-03T17:40:55Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文 参考訳(メタデータ) (2024-05-28T05:00:12Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Combining Language Models For Specialized Domains: A Colorful Approach [14.124988885323585]
ドメイン固有または二次のLMを汎用のLMに統合する新しいアプローチを導入する。
この戦略は、各単語が一般またはドメイン固有のLMと関連していることを示すラベル付け、または「色付け」を含む。
色付き単語を含む推論を効果的に処理するビーム探索アルゴリズムを最適化したアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-30T16:35:55Z) - Set-based Meta-Interpolation for Few-Task Meta-Learning [79.4236527774689]
そこで本研究では,メタトレーニングタスクの分散化を目的とした,ドメインに依存しないタスク拡張手法Meta-Interpolationを提案する。
様々な領域にまたがる8つのデータセットに対してメタ補間の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2022-05-20T06:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。