論文の概要: Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA
- arxiv url: http://arxiv.org/abs/2308.04679v1
- Date: Wed, 9 Aug 2023 03:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:21:59.507030
- Title: Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA
- Title(参考訳): Sci-CoT:科学QAのための小規模モデルにおける知識蒸留強化のための大規模言語モデルの活用
- Authors: Yuhan Ma and Haiqi Jiang and Chenyou Fan
- Abstract要約: 大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
- 参考スコア(独自算出の注目度): 5.117094291273979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown outstanding performance across wide
range of downstream tasks. This competency is attributed to their substantial
parameter size and pre-training on extensive corpus. Moreover, LLMs have
exhibited enhanced reasoning capabilities in tackling complex reasoning tasks,
owing to the utilization of a method named ``Chain-of-Thought (CoT)
prompting''. This method is designed to generate intermediate reasoning steps
that guide the inference of the final answer. However, it is essential to
highlight that these advanced reasoning abilities appear to emerge in models
with a minimum of 10 billion parameters, thereby limiting its efficacy in
situations where computational resources are constrained. In this paper, we
investigate the possibility of transferring the reasoning capabilities of LLMs
to smaller models via knowledge distillation. Specifically, we propose Sci-CoT,
a two-stage framework that separates the processes of generating rationales and
inferring answers. This method enables a more efficient use of rationales
during the answer inference stage, leading to improved performance on
scientific question-answering tasks. Utilizing Sci-CoT, our 80-million
parameter model is able to exceed the performance of BLOOM-176B in the ARC-Easy
dataset under the few shot setting.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
この能力は、その実質的なパラメータサイズと広範なコーパスでの事前トレーニングに起因する。
さらに、LLMは '`Chain-of-Thought (CoT) prompting'' というメソッドの利用により、複雑な推論タスクに対処する際の推論能力を向上した。
この方法は、最終回答の推論を導く中間推論ステップを生成するように設計されている。
しかし、これらの高度な推論能力は、最小100億のパラメータを持つモデルに出現し、計算資源が制約されている状況においてその有効性を制限することが重要である。
本稿では, LLMの推理能力を知識蒸留によりより小さなモデルに伝達する可能性について検討する。
具体的には,理性の生成過程と回答の推測を分離する2段階フレームワークであるsci-cotを提案する。
この方法では、解答推論段階でより効率的な理性の利用が可能となり、科学的質問応答タスクの性能が向上する。
Sci-CoTを利用すると、80万のパラメータモデルが、ARC-EasyデータセットにおけるBLOOM-176Bの性能を超えることができる。
関連論文リスト
- STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient
Fine-Tuning of Large Language Models [23.956842699977795]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-16T13:02:11Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from
a Parametric Perspective [114.70886320845715]
大規模言語モデル(LLM)は本質的に、広範囲なコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。
本稿では,パラメトリックの観点から,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller
Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。
本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文 参考訳(メタデータ) (2023-10-08T08:52:13Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Do Generative Large Language Models need billions of parameters? [0.0]
この研究は、モデルの異なる部分がパラメータを共有することを可能にする新しい方法を探究する。
このアプローチは、複雑な言語構造を学習し表現する能力を犠牲にすることなく、モデルがコンパクトであることを保証する。
論文 参考訳(メタデータ) (2023-09-12T20:25:22Z) - PaD: Program-aided Distillation Specializes Large Models in Reasoning [20.277018044590953]
本稿では,大規模言語モデル (LLM) を蒸留して推論タスクの専門的な小モデルを得るプログラム支援蒸留(PaD)を提案する。
PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。