論文の概要: Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2407.17963v1
- Date: Thu, 25 Jul 2024 11:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:18:40.973189
- Title: Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks
- Title(参考訳): 意味不明な意味: 算数的推論課題における生成モデルの一般化の原理的理解
- Authors: Xingcheng Xu, Zibo Zhao, Haipeng Zhang, Yanqing Yang,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
適切な位置埋め込みを持つモデルは、加算などの未確認演算を正しく行うことができることを示す。
また、特定のモジュライ (modulo 100) の下でのモジュラー加法 (modulo 101) の長い未確認ケースに対して、モデルが非常に近いモジュライ (modulo 101) の下での闘い (modulo 101) において、モデルがうまく動作することを示す。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
- 参考スコア(独自算出の注目度): 5.522116934552708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive versatility across numerous tasks, yet their generalization capabilities remain poorly understood. To investigate these behaviors, arithmetic tasks serve as important venues. In previous studies, seemingly unrelated mysteries still exist -- (1) models with appropriate positional embeddings can correctly perform longer unseen arithmetic operations such as addition, but their effectiveness varies in more complex tasks like multiplication; (2) models perform well for longer unseen cases in modular addition under specific moduli (e.g., modulo 100) but struggle under very close moduli (e.g., modulo 101), regardless of the positional encoding used. We believe previous studies have been treating the symptoms rather than addressing the root cause -- they have paid excessive attention to improving model components, while overlooking the differences in task properties that may be the real drivers. This is confirmed by our unified theoretical framework for different arithmetic scenarios. For example, unlike multiplication, the digital addition task has the property of translation invariance which naturally aligns with the relative positional encoding, and this combination leads to successful generalization of addition to unseen longer domains. The discrepancy in operations modulo 100 and 101 arises from the base. Modulo 100, unlike 101, is compatible with the decimal system (base 10), such that unseen information in digits beyond the units digit and the tens digit is actually not needed for the task. Extensive experiments with GPT-like models validate our theoretical predictions. These findings deepen our understanding of the generalization mechanisms, and facilitate more data-efficient model training and objective-oriented AI alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
これらの振る舞いを調べるために、算術的なタスクは重要な場所として機能する。
従来の研究では,(1) 適切な位置埋め込みを持つモデルでは,加算などの未確認の演算を正しく行うことができるが,その効果は乗算のようなより複雑なタスクによって変化する。(2) 特定のモジュライ(例 , modulo 100) の下では,モジュール追加において,より長い未確認ケースに対して,モデルが良好に動作するが,(例 , modulo 101) 位置符号化によらず非常に近いモジュライ(例 , modulo 101) の下では苦労する。これまでの研究では,根本原因に対処するのではなく,症状を治療してきたと我々は信じている。一方で,実際のドライバである可能性のあるタスク特性の違いを見越して,モデルコンポーネントの改善に過度な注意を払ってきた。
これは、異なる算術シナリオのための統合理論フレームワークによって確認される。
例えば、乗法とは異なり、デジタル加算タスクは変換不変性を持ち、相対的な位置エンコーディングと自然に一致する。
操作変調100、101の相違は基地から生じる。
101とは異なり、モデュロ100は十進系(ベース10)と互換性があり、単位桁を超え、十進数は実際にはそのタスクには必要ない。
GPTのようなモデルによる大規模な実験は、我々の理論予測を検証する。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
関連論文リスト
- How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs [69.55103380185612]
本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。
その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。
対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
論文 参考訳(メタデータ) (2024-10-17T17:59:35Z) - Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。
たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。
これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文 参考訳(メタデータ) (2024-05-27T17:49:18Z) - Increasing Trust in Language Models through the Reuse of Verified Circuits [1.8434042562191815]
言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視します。
数学的および論理的に定義されたフレームワークを使用して構築すれば、この標準を満たすようにモデルをトレーニングできることが示される。
両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。
論文 参考訳(メタデータ) (2024-02-04T21:33:18Z) - Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。
位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文 参考訳(メタデータ) (2023-11-22T00:31:01Z) - It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models [6.065846799248359]
大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。
しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。
n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
論文 参考訳(メタデータ) (2023-08-16T10:09:42Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Generalization on the Unseen, Logic Reasoning and Degree Curriculum [25.7378861650474]
本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。
我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。
具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
論文 参考訳(メタデータ) (2023-01-30T17:44:05Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z) - iNALU: Improved Neural Arithmetic Logic Unit [2.331160520377439]
最近提案されたNeural Arithmetic Logic Unit (NALU)は、ネットワークのユニットによって数学的関係を明確に表現し、和、減算、乗算などの操作を学ぶことができる新しいニューラルネットワークである。
本稿では,本モデルが安定性の問題を解き,算術精度と収束性により元のNALUモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-17T10:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。