論文の概要: A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness
- arxiv url: http://arxiv.org/abs/2411.03350v1
- Date: Mon, 04 Nov 2024 04:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:58.466524
- Title: A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness
- Title(参考訳): 大規模言語モデルの時代における小言語モデルの包括的調査:技術・拡張・応用・LLMとの連携・信頼性
- Authors: Fali Wang, Zhiwei Zhang, Xianren Zhang, Zongyu Wu, Tzuhao Mo, Qiuhao Lu, Wanjing Wang, Rui Li, Junjie Xu, Xianfeng Tang, Qi He, Yao Ma, Ming Huang, Suhang Wang,
- Abstract要約: 小言語モデル(SLM)は、低推論のレイテンシ、コスト効率性、効率的な開発、カスタマイズと適応性に対して、ますます好まれています。
これらのモデルは、リソース制限された環境とドメイン知識の獲得に特に適しています。
資源制約のある設定に特化タスクと適合性を持たせる能力によってSLMを定義することを提案する。
- 参考スコア(独自算出の注目度): 31.758459020683574
- License:
- Abstract: Large language models (LLM) have demonstrated emergent abilities in text generation, question answering, and reasoning, facilitating various tasks and domains. Despite their proficiency in various tasks, LLMs like LaPM 540B and Llama-3.1 405B face limitations due to large parameter sizes and computational demands, often requiring cloud API use which raises privacy concerns, limits real-time applications on edge devices, and increases fine-tuning costs. Additionally, LLMs often underperform in specialized domains such as healthcare and law due to insufficient domain-specific knowledge, necessitating specialized models. Therefore, Small Language Models (SLMs) are increasingly favored for their low inference latency, cost-effectiveness, efficient development, and easy customization and adaptability. These models are particularly well-suited for resource-limited environments and domain knowledge acquisition, addressing LLMs' challenges and proving ideal for applications that require localized data handling for privacy, minimal inference latency for efficiency, and domain knowledge acquisition through lightweight fine-tuning. The rising demand for SLMs has spurred extensive research and development. However, a comprehensive survey investigating issues related to the definition, acquisition, application, enhancement, and reliability of SLM remains lacking, prompting us to conduct a detailed survey on these topics. The definition of SLMs varies widely, thus to standardize, we propose defining SLMs by their capability to perform specialized tasks and suitability for resource-constrained settings, setting boundaries based on the minimal size for emergent abilities and the maximum size sustainable under resource constraints. For other aspects, we provide a taxonomy of relevant models/methods and develop general frameworks for each category to enhance and utilize SLMs effectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成、質問応答、推論において創発的な能力を示し、様々なタスクやドメインを容易にしている。
様々なタスクに習熟しているにもかかわらず、LaPM 540BやLlama-3.1 405BのようなLLMは、大きなパラメータサイズと計算要求のために制限に直面している。
加えて、LLMは、医療や法律などの専門分野において、ドメイン固有の知識が不足し、専門的なモデルを必要とするため、パフォーマンスが劣ることが多い。
そのため、Small Language Models (SLM) はその低推論遅延、コスト効率性、効率的な開発、カスタマイズと適応性に対してますます好まれている。
これらのモデルは、リソース制限された環境やドメイン知識の獲得に特に適しており、LLMの課題に対処し、プライバシのローカライズされたデータハンドリング、効率性の最小限の推論レイテンシ、軽量な微調整によるドメイン知識の獲得を必要とするアプリケーションに理想的なことを証明している。
SLMの需要は増大し、広範な研究と開発が進められた。
しかし, SLMの定義, 取得, 適用, 拡張, 信頼性に関する課題を総合的に調査した結果, これらの課題について詳細な調査を行うことができた。
そこで,SLM の定義は多種多様であり,SLM の定義を標準化するために,リソース制約された設定に特化されたタスクの実行能力と適合性,創発能力の最小サイズと資源制約下で持続可能な最大サイズに基づいて境界を設定することを提案する。
その他の面では、関連するモデル/メソッドの分類を提供し、SLMを効果的に強化・活用するための各カテゴリの一般的なフレームワークを開発する。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices [32.61693246340064]
資源制約のある計算環境がパーソナライズされたLLMの設計選択にどのように影響するかを検討する。
いくつかの重要な設計要因のトレードオフと、学習効率と正確性に対するそれらの相互干渉の影響を考察する。
論文 参考訳(メタデータ) (2024-06-06T06:41:53Z) - CourseGPT-zh: an Educational Large Language Model Based on Knowledge Distillation Incorporating Prompt Optimization [22.080563239179618]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて驚くべき機能を示している。
我々は、カスタマイズと低コストな展開をサポートするコース指向LLMであるCourseGPT-zhを提案する。
論文 参考訳(メタデータ) (2024-05-08T03:11:12Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。