論文の概要: Small Language Models are Equation Reasoners
- arxiv url: http://arxiv.org/abs/2409.12393v1
- Date: Thu, 19 Sep 2024 01:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:03:37.838478
- Title: Small Language Models are Equation Reasoners
- Title(参考訳): 小言語モデルは方程式推論子である
- Authors: Bumjun Kim, Kunha Lee, Juyeon Kim, Sangam Lee,
- Abstract要約: CoT(Chain-of-Thought)推論により、算術的問題解決を含む様々なNLPタスクにおいて、LLM(Large Language Model)が顕著な性能を達成できるようになった。
しかし、この成功はT5のような小さな言語モデル(sLM)に一般化しない。
知識蒸留によるsLMの高度化に向けた最近の研究は、いくつかの改善をもたらしたが、依然として重大な限界に直面している。
- 参考スコア(独自算出の注目度): 2.424910201171407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning has enabled Large Language Model (LLM) to achieve remarkable performance in various NLP tasks, including arithmetic problem-solving. However, this success does not generalize to small language model (sLM) like T5, due to their limited capacity and absence of emergent abilities associated with larger models. Recent works to enhance sLM through knowledge distillation have yielded some improvements but still face significant limitations, particularly high ambiguity from the variability in natural language expressions and substantial computational costs. In this paper, we investigate why sLM perform poorly on arithmetic reasoning tasks and hypothesize that natural language format variability introduces high ambiguity for these smaller models. Based on this hypothesis, we conduct experiments with equation-only format, which is a reasoning format that unifies arithmetic reasoning previously expressed in natural language formats into mathematical equations. Experiment results demonstrate that equation-only format effectively boosts the arithmetic reasoning abilities of sLM, especially in very small models like T5-Tiny.
- Abstract(参考訳): CoT(Chain-of-Thought)推論により、算術的問題解決を含む様々なNLPタスクにおいて、LLM(Large Language Model)が顕著な性能を達成できるようになった。
しかし、この成功はT5のような小さな言語モデル(sLM)に一般化しない。
近年の知識蒸留によるsLMの強化はいくつかの改善をもたらしているが、特に自然言語表現の多様性や計算コストの大幅な変動から、大きな制約に直面している。
本稿では,sLMが算術的推論に不利な理由を考察し,自然言語形式がこれらの小さなモデルに高いあいまいさをもたらすことを仮定する。
この仮説に基づいて,従来自然言語形式で表現されていた算術的推論を数学的方程式に統一する推論形式である方程式のみの形式を用いて実験を行う。
実験の結果、特にT5-Tinyのような非常に小さなモデルにおいて、方程式のみの形式はsLMの算術的推論能力を効果的に向上させることが示された。
関連論文リスト
- How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs [69.55103380185612]
本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。
その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。
対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
論文 参考訳(メタデータ) (2024-10-17T17:59:35Z) - Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model [15.542737858152053]
KPDD(Key-Point-Driven Mathematical Reasoning Distillation)を提案する。
KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。
実験により、KPDD-CoTは推論能力を大幅に向上し、KPDD-PoTは数学的推論タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-14T11:41:03Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - Generating Mathematical Derivations with Large Language Models [2.363388546004777]
シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。
目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2023-07-19T14:13:02Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic [14.618731441943847]
我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:53:30Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Limitations of Language Models in Arithmetic and Symbolic Induction [20.49118435604774]
大規模な事前訓練された言語モデル(LM)は、自然言語処理(NLP)タスクで非常によく機能する。
これらのモデルには、コピー、リバース、追加といった特定の基本的な記号操作タスクに制限があることがわかった。
この現象の背後にある潜在的な原因について検討し、明示的な位置マーカー、きめ細かい計算ステップ、呼び出し可能なプログラムを持つLMなどを含む一連の手法について検討する。
論文 参考訳(メタデータ) (2022-08-09T21:47:01Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。