論文の概要: Teaching Arithmetic to Small Transformers
- arxiv url: http://arxiv.org/abs/2307.03381v1
- Date: Fri, 7 Jul 2023 04:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:28:52.983525
- Title: Teaching Arithmetic to Small Transformers
- Title(参考訳): 小さなトランスフォーマーに算術を教える
- Authors: Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris
Papailiopoulos
- Abstract要約: 本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
- 参考スコア(独自算出の注目度): 39.72665384986095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models like GPT-4 exhibit emergent capabilities across
general-purpose tasks, such as basic arithmetic, when trained on extensive text
data, even though these tasks are not explicitly encoded by the unsupervised,
next-token prediction objective. This study investigates how small
transformers, trained from random initialization, can efficiently learn
arithmetic operations such as addition, multiplication, and elementary
functions like square root, using the next-token prediction objective. We first
demonstrate that conventional training data is not the most effective for
arithmetic learning, and simple formatting changes can significantly improve
accuracy. This leads to sharp phase transitions as a function of training data
scale, which, in some cases, can be explained through connections to low-rank
matrix completion. Building on prior work, we then train on chain-of-thought
style data that includes intermediate step results. Even in the complete
absence of pretraining, this approach significantly and simultaneously improves
accuracy, sample complexity, and convergence speed. We also study the interplay
between arithmetic and text data during training and examine the effects of
few-shot prompting, pretraining, and model scale. Additionally, we discuss
length generalization challenges. Our work highlights the importance of
high-quality, instructive data that considers the particular characteristics of
the next-word prediction objective for rapidly eliciting arithmetic
capabilities.
- Abstract(参考訳): gpt-4のような大規模言語モデルは、教師なしの次の予測目的によって明示的にエンコードされていないにもかかわらず、広範なテキストデータでトレーニングされた場合、基本的な算術のような汎用タスクにまたがる創発的な能力を示す。
本研究では,ランダム初期化から学習した小形変圧器が,次の予測目標を用いて,加算,乗算,平方根などの初等関数などの算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的ではないことを示すとともに,簡易な書式変更によって精度が大幅に向上することを示す。
これは訓練データスケールの関数として鋭い位相遷移をもたらし、場合によっては低ランク行列補完への接続を通して説明できる。
事前の作業に基づいて、中間ステップの結果を含むチェーンオブ思考スタイルのデータをトレーニングします。
事前学習が完全にない場合でも、このアプローチは精度、サンプルの複雑さ、収束速度を大幅に改善する。
また,訓練中の算術データとテキストデータの相互作用を調べ,数発プロンプト,事前学習,モデルスケールの効果について検討した。
さらに,長さ一般化問題についても論じる。
本研究は,高速な算術能力を引き出すために,次の単語予測対象の特徴を考慮に入れた高品質な指導的データの重要性を強調した。
関連論文リスト
- Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Arithmetic with Language Models: from Memorization to Computation [3.635857207402894]
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
我々はこれらのタスクを学ぶために軽言語モデルを訓練し、外挿能力と内部情報処理を調べるために多くの実験を行った。
論文 参考訳(メタデータ) (2023-08-02T13:58:37Z) - Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文 参考訳(メタデータ) (2022-05-13T16:10:13Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z) - Neural Execution Engines: Learning to Execute Subroutines [29.036699193820215]
本稿では, ソート, 最短経路, 最小スパンニング木などの共通アルゴリズムを構成する数値サブルーチンのレベルでの一般化問題について検討する。
データを一般化するために、バイナリ表現で数値を符号化すると、加算や乗算のような下流のタスクで訓練されたリッチな構造で埋め込みされることを示す。
論文 参考訳(メタデータ) (2020-06-15T01:51:37Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。