論文の概要: Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks
- arxiv url: http://arxiv.org/abs/2305.18395v1
- Date: Sun, 28 May 2023 13:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:43:34.794720
- Title: Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks
- Title(参考訳): 知識集約型タスクにおける小言語モデルの知識強化推論蒸留
- Authors: Minki Kang, Seanie Lee, Jinheon Baek, Kenji Kawaguchi, Sung Ju Hwang
- Abstract要約: KARD(Knowledge-Augmented Reasoning Distillation)は、外部知識ベースから得られる知識を付加した理性を生成するための、小さなLMを微調整する新しい手法である。
KARDは、知識集約型推論データセットにおいて、小さなT5モデルとFlan-T5モデルの性能を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 73.96838581634032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown promising performance in
knowledge-intensive reasoning tasks that require a compound understanding of
knowledge. However, deployment of the LLMs in real-world applications can be
challenging due to their high computational requirements and concerns on data
privacy. Previous studies have focused on building task-specific small language
models (LMs) by fine-tuning them with labeled data or distilling LLMs. However,
these approaches are ill-suited for knowledge-intensive reasoning tasks due to
the limited capacity of small LMs in memorizing the knowledge required.
Motivated by our theoretical analysis on memorization, we propose
Knowledge-Augmented Reasoning Distillation (KARD), a novel method that
fine-tunes small LMs to generate rationales with augmented knowledge retrieved
from an external knowledge base. Moreover, we further propose a neural reranker
to obtain documents relevant to rationale generation. We empirically show that
KARD significantly improves the performance of small T5 and Flan-T5 models on
the challenging knowledge-intensive reasoning datasets, namely MedQA-USMLE and
StrategyQA. Notably, our method makes the 250M models achieve superior
performance against the fine-tuned 3B models, having 12 times larger
parameters, on both MedQA-USMLE and StrategyQA benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識の複雑な理解を必要とする知識集約的推論タスクにおいて、有望な性能を示す。
しかし、LLMの実際のアプリケーションへの展開は、高い計算要求とデータプライバシに関する懸念のために困難である可能性がある。
従来の研究は、ラベル付きデータで微調整したり、LLMを蒸留することで、タスク固有小言語モデル(LM)の構築に重点を置いてきた。
しかしながら、これらのアプローチは、必要となる知識を記憶する小さなlmsの能力に制限があるため、知識集約的推論タスクには不向きである。
記憶の理論的解析により,外部知識ベースから獲得した知識を付加した理性を生成するため,小さなLMを微調整する新しい手法であるKARD(Knowledge-Augmented Reasoning Distillation)を提案する。
さらに,理論生成に関連する文書を得るためのニューラルリランカも提案する。
我々は、KARDが知識集約推論データセットであるMedQA-USMLEとStrategyQAにおいて、小さなT5モデルとFlan-T5モデルの性能を著しく向上させることを示す。
特に,MedQA-USMLEベンチマークとStrategyQAベンチマークの2倍のパラメータを持つ細調整された3Bモデルに対して,2億5000万モデルで優れた性能を実現する。
関連論文リスト
- A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Evolving Knowledge Distillation with Large Language Models and Active
Learning [46.85430680828938]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。
従来の研究は、注釈付きデータを生成してLPMの知識をより小さなモデルに抽出しようと試みてきた。
EvoKD: Evolving Knowledge Distillationを提案する。これは、アクティブラーニングの概念を利用して、大規模言語モデルを用いたデータ生成のプロセスをインタラクティブに強化する。
論文 参考訳(メタデータ) (2024-03-11T03:55:24Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Knowledge Editing for Large Language Models: A Survey [51.01368551235289]
大規模言語モデル(LLM)の大きな欠点の1つは、事前学習に要する計算コストである。
知識に基づくモデル編集(KME)が注目を集めており、特定の知識を組み込むためにLLMを正確に修正することを目的としている。
論文 参考訳(メタデータ) (2023-10-24T22:18:13Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs
for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。
本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。
KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。