論文の概要: Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2409.13203v2
- Date: Sat, 14 Dec 2024 05:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:14.176094
- Title: Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
- Title(参考訳): ニューラル・シンボリック協調蒸留:複雑な推論タスクのための小言語モデルの改善
- Authors: Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Jun Zhao,
- Abstract要約: 大規模言語モデル(LLM)の複雑な推論能力を学習するための新しい知識蒸留法を提案する。
NesyCDはLLMの一般的な能力と専門知識を異なる方法で蒸留する。
実験の結果,NesyCDは領域内(BBH, GSM8K)および領域外(AGIEval, ARC)データセット上でのSLMの複雑な推論性能を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 30.572064185770298
- License:
- Abstract: In this paper, we propose $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation ($\textbf{NesyCD}$), a novel knowledge distillation method for learning the complex reasoning abilities of Large Language Models (LLMs, e.g., \textgreater 13B). We argue that complex reasoning tasks are difficult for Small Language Models (SLMs, e.g., $\leq$ 7B), as these tasks demand not only general cognitive abilities but also specialized knowledge, which is often sparse and difficult for these neural-based SLMs to effectively capture. Therefore, NesyCD distills the general capabilities and specialized knowledge in LLMs using different manners. On the one hand, we distill only general abilities from teacher LLMs into the student SLMs of parameterized neural networks. On the other hand, for the specialized abilities and uncommon knowledge of a complex reasoning task, we employ a symbolic knowledge distillation approach to obtain and store the specialized knowledge within a symbolic knowledge base (KB). By decoupling general and specialized capabilities, the proposed NesyCD can achieve superior performance cost-effectively, utilizing smaller models and blending parameterized neural networks with symbolic KB. Moreover, the specialized KB generalizes well and is comprehended and manipulated by humans. Our experiments show that NesyCD significantly boosts SLMs' complex reasoning performance on in-domain (BBH, GSM8K) and out-of-domain (AGIEval, ARC) datasets. Notably, our approach enabled the LLaMA3-8B and Qwen2-7B to surpass GPT-3.5-turbo in performance and come close to matching LLaMA3-70B, despite the latter having nine times more parameters. Our code will be available at https://github.com/Xnhyacinth/NesyCD.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLMs, e g , \textgreater 13B) の複雑な推論能力を学習するための知識蒸留法である $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation$\textbf{NesyCD}$B を提案する。
これらのタスクは、一般的な認知能力だけでなく、専門知識も要求するので、SLM(Small Language Models, SLMs, eg, $\leq$ 7B)にとって複雑な推論タスクは難しいと我々は主張する。
そのため、NesyCDはLLMの一般的な能力と専門知識を異なる方法で蒸留する。
一方,教師のLSMからパラメータ化されたニューラルネットワークの学生のSLMにのみ一般能力を蒸留する。
一方,複雑な推論課題の専門的能力と非常識的知識については,記号的知識蒸留法を用いて,その専門的知識を記号的知識基盤(KB)内に獲得・保存する。
一般的な機能と特殊な機能を分離することにより、提案したNesyCDは、より小さなモデルを活用し、パラメータ化されたニューラルネットワークとシンボリックKBをブレンドすることで、より優れたパフォーマンスを実現することができる。
さらに、特殊なKBはよく一般化し、人間によって解釈され、操作される。
実験の結果,NesyCDは領域内(BBH, GSM8K)および領域外(AGIEval, ARC)データセット上でのSLMの複雑な推論性能を大幅に向上させることがわかった。
特に,LLaMA3-8B と Qwen2-7B は GPT-3.5-turbo を上回り,LLaMA3-70B に近づいた。
私たちのコードはhttps://github.com/Xnhyacinth/NesyCDで公開されます。
関連論文リスト
- GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - $\textit{SKIntern}$: Internalizing Symbolic Knowledge for Distilling Better CoT Capabilities into Small Language Models [27.07695214182334]
小言語モデル(SLM)は、高い計算要求とプライバシー上の懸念から注目を集めている。
シンボリック知識を内部化するためのSLMを実現する革新的なアプローチである$textitSKIntern$を紹介した。
論文 参考訳(メタデータ) (2024-09-20T03:23:20Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。
CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。
KnowReasonで広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-30T10:49:32Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。
KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。
KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。
CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文 参考訳(メタデータ) (2024-03-11T03:42:03Z) - Prompt-Time Symbolic Knowledge Capture with Large Language Models [0.0]
ユーザ固有の知識で大きな言語モデル(LLM)を拡張することは、パーソナルAIアシスタントのような現実世界のアプリケーションにとって不可欠である。
本稿では,既存のLLM機能を活用して,迅速な知識獲得を実現する。
論文 参考訳(メタデータ) (2024-02-01T08:15:28Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - High-level Features for Resource Economy and Fast Learning in Skill
Transfer [0.8602553195689513]
ディープネットワークは、ますます複雑な抽象化を形成する能力のために有効であることが証明されている。
以前の作業では、デザイナバイアスを生み出す抽象化の形成を強制するか、多数のニューラルユニットを使用していた。
本稿では,脳神経応答のダイナミクスを利用して,スキル伝達に使用するコンパクトな表現法を提案する。
論文 参考訳(メタデータ) (2021-06-18T21:05:21Z) - DISCOS: Bridging the Gap between Discourse Knowledge and Commonsense
Knowledge [42.08569149041291]
代替コモンセンス知識獲得フレームワーク DISCOS を提案します。
DISCOSは高価なコモンセンス知識をより手頃な言語知識資源に投入する。
我々は,ASERの中核部にATOMICを投入することにより,3.4M ATOMICライクな推論コモンセンス知識を得ることができる。
論文 参考訳(メタデータ) (2021-01-01T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。