論文の概要: A Survey on Knowledge Distillation of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13116v1
- Date: Tue, 20 Feb 2024 16:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:29:50.510231
- Title: A Survey on Knowledge Distillation of Large Language Models
- Title(参考訳): 大規模言語モデルの知識蒸留に関する調査研究
- Authors: Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang
Li, Can Xu, Dacheng Tao, Tianyi Zhou
- Abstract要約: 本稿では,Large Language Models(LLMs)領域における知識蒸留技術(KD)の深層探査について述べる。
これは、GPT-4のようなプロプライエタリな巨人からLLaMAやMistralのような、アクセス可能なオープンソースのモデルに移行する上で、KDが重要な役割を担っていることを強調している。
- 参考スコア(独自算出の注目度): 102.84645991075283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This survey presents an in-depth exploration of knowledge distillation (KD)
techniques within the realm of Large Language Models (LLMs), spotlighting the
pivotal role of KD in transferring sophisticated capabilities from proprietary
giants such as GPT-4 to accessible, open-source models like LLaMA and Mistral.
Amidst the evolving AI landscape, this work elucidates the critical disparities
between proprietary and open-source LLMs, demonstrating how KD serves as an
essential conduit for imbuing the latter with the former's advanced
functionalities and nuanced understandings. Our survey is meticulously
structured around three foundational pillars: algorithm, skill, and
verticalization -- providing a comprehensive examination of KD mechanisms, the
enhancement of specific cognitive abilities, and their practical implications
across diverse fields. Crucially, the survey navigates the intricate interplay
between data augmentation (DA) and KD, illustrating how DA emerges as a
powerful paradigm within the KD framework to bolster LLMs' performance. By
leveraging DA to generate context-rich, skill-specific training data, KD
transcends traditional boundaries, enabling open-source models to approximate
the contextual adeptness, ethical alignment, and deep semantic insights
characteristic of their proprietary counterparts. This work aims to provide an
insightful guide for researchers and practitioners, offering a detailed
overview of current methodologies in knowledge distillation and proposing
future research directions. By bridging the gap between proprietary and
open-source LLMs, this survey underscores the potential for more accessible,
efficient, and sustainable AI solutions, fostering a more inclusive and
equitable landscape in AI advancements. An associated Github repository is
available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.
- Abstract(参考訳): 本調査では,大規模言語モデル(LLM)の領域内での知識蒸留技術(KD)の深層探査を行い,GPT-4のようなプロプライエタリな巨人から,LLaMAやMistralのようなオープン・ソース・モデルへ,KDの高度な能力移転における重要な役割を明らかにする。
進化するAIの状況の中で、この研究は、プロプライエタリなLLMとオープンソースのLLMの重大な相違を解明し、KDが、前者の高度な機能とニュアンスドの理解によって、後者をインプットするための不可欠なコンジットとして機能することを示す。
我々の調査は、アルゴリズム、スキル、垂直化の3つの基本柱を中心に慎重に構成されており、KDメカニズムの包括的な検証、特定の認知能力の強化、そして様々な分野におけるそれらの実践的意味を提供する。
重要な点として、この調査はデータ拡張(DA)とKDの間の複雑な相互作用をナビゲートし、DAがKDフレームワーク内で強力なパラダイムとして出現し、LLMのパフォーマンスを向上する方法について説明している。
daを活用してコンテキスト豊富なスキル固有のトレーニングデータを生成することで、kdは従来のバウンダリを超越し、オープンソースモデルが自身のプロプライエタリなコンテクストの高度さ、倫理的アライメント、深い意味的洞察を近似することができる。
本研究は, 知識蒸留における現在の方法論の概要と今後の研究方向性を提案する, 研究者や実践者のための洞察に富んだガイドを提供することを目的としている。
この調査は、プロプライエタリなLLMとオープンソースのLLMのギャップを埋めることによって、よりアクセスしやすく、効率的で持続可能なAIソリューションの可能性を強調し、AIの進歩においてより包括的で公平な景観を育む。
Githubリポジトリはhttps://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMsで公開されている。
関連論文リスト
- Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph [1.7418328181959968]
本研究は,革新的なセマンティッククエリ処理システムを開発することを目的としている。
オーストラリア国立大学のコンピュータサイエンス(CS)研究者による研究成果に関する総合的な情報を得ることができる。
論文 参考訳(メタデータ) (2024-05-24T09:19:45Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs
for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。
本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。
KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。