Fugu-MT 論文翻訳(概要): Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

論文の概要: Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

arxiv url: http://arxiv.org/abs/2402.05140v1
Date: Tue, 6 Feb 2024 20:11:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 17:57:29.443611
Title: Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
Title（参考訳）: Tag-LLM:特殊ドメインのための汎用LLMの再利用
Authors: Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。本研究は、汎用LLMを特殊領域の効率的なタスク解決器に再利用する方法を探求する。
参考スコア（独自算出の注目度）: 10.299618586418761
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in understanding and generating natural language. However, their capabilities wane in highly specialized domains underrepresented in the pretraining corpus, such as physical and biomedical sciences. This work explores how to repurpose general LLMs into effective task solvers for specialized domains. We introduce a novel, model-agnostic framework for learning custom input tags, which are parameterized as continuous vectors appended to the LLM's embedding layer, to condition the LLM. We design two types of input tags: domain tags are used to delimit specialized representations (e.g., chemical formulas) and provide domain-relevant context; function tags are used to represent specific functions (e.g., predicting molecular properties) and compress function-solving instructions. We develop a three-stage protocol to learn these tags using auxiliary data and domain knowledge. By explicitly disentangling task domains from task functions, our method enables zero-shot generalization to unseen problems through diverse combinations of the input tags. It also boosts LLM's performance in various specialized domains, such as predicting protein or chemical properties and modeling drug-target interactions, outperforming expert models tailored to these tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語の理解と生成に顕著な能力を示した。しかし、その能力は、物理科学や生物医学などの事前学習コーパスで過小評価された高度に専門化された領域で低下した。本研究は、汎用LLMを専門分野の効率的なタスク解決に活用する方法を探る。 LLMの埋め込み層に付加される連続ベクトルとしてパラメータ化されるカスタム入力タグを学習するための,新しいモデルに依存しないフレームワークを提案する。ドメインタグは特殊表現(例えば化学式)を分離し、ドメイン関連コンテキストを提供するのに使われ、関数タグは特定の関数(例えば分子特性の予測)を表すのに使われ、関数解決命令は圧縮される。補助データとドメイン知識を用いて,これらのタグを学習するための3段階のプロトコルを開発した。タスク領域をタスク関数から明示的に分離することにより、入力タグの多様な組み合わせにより、ゼロショット一般化が可能となる。また、タンパク質や化学的性質の予測や薬物と標的の相互作用のモデリングなど、様々な専門分野におけるLLMの性能を高める。

関連論文リスト

Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:07:41Z)
Prompt Engineering: How Prompt Vocabulary affects Domain Knowledge [0.0]
この論文は、語彙の特異性の増大がドメイン固有の質問応答および推論タスクを改善するかどうかを論じる。名詞,動詞,形容詞を様々な特異度で体系的に代用する同義化フレームワークを開発し,四大言語モデル(LLM)への影響を測定した。以上の結果から,全般的にプロンプトの特異性を高めることは大きな影響を与えないが,LLMが最善を尽くすと考えられるすべてのモデルに対して,特異性の範囲が存在することが明らかとなった。
論文参考訳（メタデータ） (2025-05-10T08:40:04Z)
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文参考訳（メタデータ） (2025-02-15T07:43:43Z)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。 LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳（メタデータ） (2025-01-30T22:21:12Z)
On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Decoding Time Series with LLMs: A Multi-Agent Framework for Cross-Domain Annotation [56.78444462585225]
TESSAは、時系列データに対する一般的なアノテーションとドメイン固有のアノテーションの両方を自動的に生成するように設計されたマルチエージェントシステムである。 General Agentは複数のソースドメインにまたがる共通パターンと知識をキャプチャし、時系列とテキストの両方の機能を利用する。ドメイン固有のエージェントは、ターゲットドメインからの限定アノテーションを使用して、ドメイン固有の用語を学び、ターゲットアノテーションを生成する。
論文参考訳（メタデータ） (2024-10-22T22:43:14Z)
Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。 LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。 SMART-SLICはドメイン固有のLLMフレームワークである。
論文参考訳（メタデータ） (2024-10-03T17:40:55Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。性能ギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。 GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文参考訳（メタデータ） (2024-05-28T05:00:12Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
DRAK: Unlocking Molecular Insights with Domain-Specific Retrieval-Augmented Knowledge in LLMs [6.728130796437259]
DRAK(Domain-specific Retrieval-Augmented Knowledge)は、大規模言語モデルのための非パラメトリックな知識注入フレームワークである。 DRAKは、分子領域と幅広い分析タスクを扱う能力において、深い専門知識を発達させてきた。私たちのコードはまもなく利用可能になります。
論文参考訳（メタデータ） (2024-03-04T15:04:05Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Combining Language Models For Specialized Domains: A Colorful Approach [14.124988885323585]
ドメイン固有または二次のLMを汎用のLMに統合する新しいアプローチを導入する。この戦略は、各単語が一般またはドメイン固有のLMと関連していることを示すラベル付け、または「色付け」を含む。色付き単語を含む推論を効果的に処理するビーム探索アルゴリズムを最適化したアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-10-30T16:35:55Z)
G-MAP: General Memory-Augmented Pre-trained Language Model for Domain Tasks [68.87524746922263]
G-MAP(General Memory Augmented Pre-trained Language Model)の新たなフレームワークを提案する。 G-MAPは、凍った一般PLMから構築されたメモリ表現によって、一般知識を失うことなくドメイン固有のPLMを増強する。各種分野(生物・コンピュータ科学出版物,ニュース,レビュー)におけるG-MAPの有効性とタスクの種類(テキスト分類,QA,NER)について示す。
論文参考訳（メタデータ） (2022-12-07T13:07:24Z)
Set-based Meta-Interpolation for Few-Task Meta-Learning [79.4236527774689]
そこで本研究では,メタトレーニングタスクの分散化を目的とした,ドメインに依存しないタスク拡張手法Meta-Interpolationを提案する。様々な領域にまたがる8つのデータセットに対してメタ補間の有効性を実証的に検証した。
論文参考訳（メタデータ） (2022-05-20T06:53:03Z)
KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文参考訳（メタデータ） (2022-04-22T08:11:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。