論文の概要: Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia
- arxiv url: http://arxiv.org/abs/2409.17391v1
- Date: Wed, 25 Sep 2024 22:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-29 00:01:07.940104
- Title: Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia
- Title(参考訳): 数理システムに関する大規模言語モデルのスケーリング行動:Pythiaを用いた例
- Authors: Zhejian Zhou, Jiayu Wang, Dahua Lin, Kai Chen,
- Abstract要約: 本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
- 参考スコア(独自算出の注目度): 55.23627698804683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Large Language Models (LLMs) have shown remarkable abilities in mathematics reasoning, they are still struggling with performing numeric operations accurately, such as addition and multiplication. Numbers can be tokenized into tokens in various ways by different LLMs and affect the numeric operations performance. Currently, there are two representatives: 1) Tokenize into $1$-digit, and 2) Tokenize into $1\sim 3$ digit. The difference is roughly equivalent to using different numeral systems (namely base $10$ or base $10^{3}$). In light of this, we study the scaling behavior of different numeral systems in the context of transformer-based large language models. We empirically show that a base $10$ system is consistently more data-efficient than a base $10^{2}$ or $10^{3}$ system across training data scale, model sizes under from-scratch training settings, while different number systems have very similar fine-tuning performances. We attribute this to higher token frequencies of a base $10$ system. Additionally, we reveal extrapolation behavior patterns on addition and multiplication. We identify that base $100$ and base $1000$ systems struggle on token-level discernment and token-level operations. We also sheds light on the mechanism learnt by the models.
- Abstract(参考訳): 大規模言語モデル(LLM)は数学の推論において顕著な能力を示してきたが、加算や乗算といった数値演算を正確に行うことにはまだ苦戦している。
数値は様々な LLM によってトークンにトークン化され、数値演算のパフォーマンスに影響を及ぼす。
現在は2人の代表者がいる。
1) tokenize into $1$-digit, and
2)Tokenizeを$1\sim 3$ digitにする。
この差は、大まかに言えば、異なる数字システム(つまり、ベース10$またはベース10^{3}$)を使用することと等価である。
そこで本研究では,変圧器を用いた大規模言語モデルを用いて,異なる数値システムのスケーリング挙動について検討する。
経験的に、ベース10$システムは、トレーニングデータスケール、スクラッチのトレーニング設定によるモデルサイズ、および異なる数値システムは、非常によく似た微調整性能を持つのに対して、ベース10^{2}$または10^{3}$システムよりも一貫してデータ効率が良いことを示しています。
これは、ベーシックな10ドルシステムよりも高いトークン周波数によるものです。
さらに,加法および乗算における外挿行動パターンを明らかにした。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
また、モデルによって学習されたメカニズムについても光を当てています。
関連論文リスト
- Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training [4.062463195973711]
本研究では,BabyLMチャレンジの一環として,限られたデータ構造における3つのプライマリ変数の役割について検討する。
カリキュラム学習は,非カリキュラム学習モデルよりもマルチモーダルな評価に有効であることがわかった。
論文 参考訳(メタデータ) (2024-10-20T21:03:51Z) - Teaching Transformers Modular Arithmetic at Scale [9.68892691572611]
この作業では、モジュール追加モデルトレーニングパイプラインに3つの変更を提案する。
N = 256, q = 3329$, 暗号アプリケーションには興味深いケースがある。
論文 参考訳(メタデータ) (2024-10-04T16:19:33Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - Length Generalization in Arithmetic Transformers [41.62455986786115]
本稿では,変圧器が基本的な整数算術を学習し,学習中に見られるよりも長い列に一般化する,という2つの課題に対処する方法を示す。
トレーニングセットに数列(10ドルから50ドル)の長いシーケンスを追加する。
プリミリングによって5ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3ドル/3ドル/3ドル/3ドル/3.99セント/3ドル/3.99セント/3ドル/3.99セント/3ドル/3ドル/3ドル/3.99ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-06-27T11:53:25Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。