論文の概要: Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks
- arxiv url: http://arxiv.org/abs/2305.18395v2
- Date: Mon, 30 Oct 2023 08:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:02:30.986725
- Title: Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks
- Title(参考訳): 知識集約型タスクにおける小言語モデルの知識強化推論蒸留
- Authors: Minki Kang, Seanie Lee, Jinheon Baek, Kenji Kawaguchi, Sung Ju Hwang
- Abstract要約: 大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 90.11273439036455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown promising performance in
knowledge-intensive reasoning tasks that require a compound understanding of
knowledge. However, deployment of the LLMs in real-world applications can be
challenging due to their high computational requirements and concerns on data
privacy. Previous studies have focused on building task-specific small Language
Models (LMs) by fine-tuning them with labeled data or distilling LLMs. However,
these approaches are ill-suited for knowledge-intensive reasoning tasks due to
the limited capacity of small LMs in memorizing the knowledge required.
Motivated by our theoretical analysis on memorization, we propose
Knowledge-Augmented Reasoning Distillation (KARD), a novel method that
fine-tunes small LMs to generate rationales obtained from LLMs with augmented
knowledge retrieved from an external knowledge base. Moreover, we further
propose a neural reranker to obtain documents relevant to rationale generation.
We empirically show that KARD significantly improves the performance of small
T5 and GPT models on the challenging knowledge-intensive reasoning datasets,
namely MedQA-USMLE, StrategyQA, and OpenbookQA. Notably, our method makes the
250M T5 models achieve superior performance against the fine-tuned 3B models,
having 12 times larger parameters, on both MedQA-USMLE and StrategyQA
benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識の複雑な理解を必要とする知識集約的推論タスクにおいて、有望な性能を示す。
しかし、LLMの実際のアプリケーションへの展開は、高い計算要求とデータプライバシに関する懸念のために困難である可能性がある。
従来の研究は、ラベル付きデータで微調整したり、LLMを蒸留することで、タスク固有小言語モデル(LM)の構築に重点を置いてきた。
しかしながら、これらのアプローチは、必要となる知識を記憶する小さなlmsの能力に制限があるため、知識集約的推論タスクには不向きである。
記憶の理論的解析により, 外部知識ベースから得られる知識を付加したLPMから得られる有理性を生成するために, 小さなLMを微調整する新しい手法であるKARD(Knowledge-Augmented Reasoning Distillation)を提案する。
さらに,理論生成に関連する文書を得るためのニューラルリランカも提案する。
我々は、KARDが知識集約推論データセットであるMedQA-USMLE、StrategyQA、OpenbookQAにおいて、小さなT5およびGPTモデルの性能を著しく向上させることを示す。
特に,MedQA-USMLEおよびStrategyQAベンチマークの2倍のパラメータを持つ細調整された3Bモデルに対して,2億5000万T5モデルを優れた性能を達成する。
関連論文リスト
- Evolving Knowledge Distillation with Large Language Models and Active
Learning [46.85430680828938]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。
従来の研究は、注釈付きデータを生成してLPMの知識をより小さなモデルに抽出しようと試みてきた。
EvoKD: Evolving Knowledge Distillationを提案する。これは、アクティブラーニングの概念を利用して、大規模言語モデルを用いたデータ生成のプロセスをインタラクティブに強化する。
論文 参考訳(メタデータ) (2024-03-11T03:55:24Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Clue-Guided Path Exploration: An Efficient Knowledge Base
Question-Answering Framework with Low Computational Resource Consumption [22.74267517598694]
知識ベースとLLMを効率的にマージするCGPE(Clue-Guided Path Exploration framework)を導入する。
CGPEは、人間が手動で知識を検索する手法にインスパイアされ、必要な知識経路を体系的に探索するための手がかりとして、質問からの情報を利用する。
オープンソースデータセットの実験では、CGPEは従来の手法よりも優れており、パラメータが少ないLCMに適用可能であることが明らかになった。
論文 参考訳(メタデータ) (2024-01-24T13:36:50Z) - Knowledge Editing for Large Language Models: A Survey [51.01368551235289]
大規模言語モデル(LLM)の大きな欠点の1つは、事前学習に要する計算コストである。
知識に基づくモデル編集(KME)が注目を集めており、特定の知識を組み込むためにLLMを正確に修正することを目的としている。
論文 参考訳(メタデータ) (2023-10-24T22:18:13Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Boosting In-Context Learning with Factual Knowledge [39.93507764191706]
In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs
for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。
本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。
KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。