論文の概要: Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.18703v2
- Date: Wed, 31 May 2023 00:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 11:49:24.566231
- Title: Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large
Language Models
- Title(参考訳): One-Model-Fits-Allを超えて:大規模言語モデルのドメイン特化に関する調査
- Authors: Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng,
Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao
Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen,
Haifeng Chen, Chris White, Quanquan Gu, Carl Yang, and Liang Zhao
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
LLMドメイン特定化手法を分類する系統分類法を提案する。
また、特殊なLSMの利点を享受できる重要なアプリケーション領域の包括的分類も提示する。
- 参考スコア(独自算出の注目度): 87.38656927033377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have significantly advanced the field of natural
language processing (NLP), providing a highly useful, task-agnostic foundation
for a wide range of applications. The great promise of LLMs as general task
solvers motivated people to extend their functionality largely beyond just a
``chatbot'', and use it as an assistant or even replacement for domain experts
and tools in specific domains such as healthcare, finance, and education.
However, directly applying LLMs to solve sophisticated problems in specific
domains meets many hurdles, caused by the heterogeneity of domain data, the
sophistication of domain knowledge, the uniqueness of domain objectives, and
the diversity of the constraints (e.g., various social norms, cultural
conformity, religious beliefs, and ethical standards in the domain
applications). To fill such a gap, explosively-increase research, and practices
have been conducted in very recent years on the domain specialization of LLMs,
which, however, calls for a comprehensive and systematic review to better
summarizes and guide this promising domain. In this survey paper, first, we
propose a systematic taxonomy that categorizes the LLM domain-specialization
techniques based on the accessibility to LLMs and summarizes the framework for
all the subcategories as well as their relations and differences to each other.
We also present a comprehensive taxonomy of critical application domains that
can benefit from specialized LLMs, discussing their practical significance and
open challenges. Furthermore, we offer insights into the current research
status and future trends in this area.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。
一般的なタスクソルバとしてのllmsの素晴らしい約束は、機能を‘チャットボット’の単なる'機能を超えて拡張し、医療、金融、教育といった特定のドメインのドメインエキスパートやツールのアシスタントとして、あるいは置き換えることに動機づけられた。
しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。
このようなギャップを埋めるため、近年、llmsのドメイン特化に関する爆発的な研究や実践が行われてきたが、この有望なドメインをまとめ、ガイドするために、包括的かつ体系的なレビューが求められている。
本稿では,まず,llm へのアクセシビリティに基づく llm ドメイン特化手法を分類し,すべてのサブカテゴリの枠組みとそれらの関係と差異を要約する体系的分類法を提案する。
また,重要なアプリケーション領域を包括的に分類し,それらの実用的意義とオープンな課題について論じる。
さらに,本分野における現在の研究状況と今後の動向について考察する。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - SilverSight: A Multi-Task Chinese Financial Large Language Model Based on Adaptive Semantic Space Learning [4.540505713937026]
本研究では, 適応意味空間学習(ASSL)フレームワークを導入し, マルチエキスパートモデルの性能向上と選択効率の向上を図る。
研究結果から,本フレームワークはデータの10%に過ぎず,完全なデータトレーニングで得られた結果に近い結果が得られるとともに,強力な一般化能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-04-07T13:02:21Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Retrieval-Augmented Chain-of-Thought in Semi-structured Domains [10.417698947670564]
大規模言語モデル(LLM)は、印象的な言語理解とコンテキスト内学習能力を示している。
本研究は,法的・財務的データの半構造化特性を活用し,関連文脈を効率的に検索することを目的とする。
結果として得られるシステムは、現代のモデルよりも優れており、また、回答に有用な説明を提供する。
論文 参考訳(メタデータ) (2023-10-22T22:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。