Fugu-MT 論文翻訳(概要): Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks

論文の概要: Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks

arxiv url: http://arxiv.org/abs/2407.17963v2
Date: Fri, 30 May 2025 07:41:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.433475
Title: Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks
Title（参考訳）: 算数推論課題における生成変圧器モデルの一般化の原理的理解
Authors: Xingcheng Xu, Zibo Zhao, Haipeng Zhang, Yanqing Yang,
Abstract要約: トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。本稿では,算術課題における変圧器の一般化動作を理解するための統一的理論枠組みを開発する。
参考スコア（独自算出の注目度）: 5.522116934552708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based models excel in various tasks but their generalization capabilities, especially in arithmetic reasoning, remain incompletely understood. Arithmetic tasks provide a controlled framework to explore these capabilities, yet performance anomalies persist, such as inconsistent effectiveness in multiplication and erratic generalization in modular addition (e.g., modulo 100 vs. 101). This paper develops a unified theoretical framework for understanding the generalization behaviors of transformers in arithmetic tasks, focusing on length generalization. Through detailed analysis of addition, multiplication, and modular operations, we reveal that translation invariance in addition aligns with relative positional encoding for robust generalization, while base mismatch in modular operations disrupts this alignment. Experiments across GPT-family models validate our framework, confirming its ability to predict generalization behaviors. Our work highlights the importance of task structure and training data distribution for achieving data-efficient and structure-aware training, providing a systematic approach to understanding of length generalization in transformers.
Abstract（参考訳）: トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。算術的なタスクはこれらの機能を探索するための制御されたフレームワークを提供するが、乗法における一貫性のない有効性やモジュラー加算(例:modulo 100 vs. 101)におけるエラー一般化のようなパフォーマンス異常は持続する。本稿では,算術タスクにおける変圧器の一般化挙動を理解するための統一的理論枠組みを開発し,長さ一般化に着目した。加法、乗法、モジュラー演算の詳細な解析により、加法における変換不変性は相対的な位置エンコーディングと整合し、モジュラー演算における基底ミスマッチは、このアライメントを妨害する。 GPTファミリーモデルによる実験は、我々のフレームワークを検証し、一般化行動を予測する能力を確認した。本研究は,データ効率と構造認識トレーニングを実現するためのタスク構造とデータ分布のトレーニングの重要性を強調し,トランスフォーマにおける長さ一般化の理解のための体系的なアプローチを提供する。

関連論文リスト

Learning Modular Exponentiation with Transformers [0.0]
4層エンコーダ・デコーダ・トランスモデルをトレーニングし、モジュラー指数化を行う。相互学習は高い性能向上をもたらし、関連するモジュラーを突如に一般化する。これらの結果から,変圧器モデルは特殊計算回路を用いてモジュラー演算を学習することが示唆された。
論文参考訳（メタデータ） (2025-06-30T10:00:44Z)
Extrapolation by Association: Length Generalization Transfer in Transformers [29.659527141850436]
長さ一般化は関連するタスク間でテキスト転送可能であることを示す。この結果から, 変圧器モデルでは, 協調学習時に類似タスクから一般化能力を継承できることが示唆された。長さ一般化の伝達は,タスク間の同一の注目ヘッドの再使用と相関する,初期力学的な証拠を提供する。
論文参考訳（メタデータ） (2025-06-10T21:22:51Z)
The Coverage Principle: A Framework for Understanding Compositional Generalization [31.762330857169914]
合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文参考訳（メタデータ） (2025-05-26T17:55:15Z)
NeuralGrok: Accelerate Grokking by Neural Gradient Transformation [54.65707216563953]
算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。実験により,NeuralGrokは一般化を著しく加速することが示された。また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
論文参考訳（メタデータ） (2025-04-24T04:41:35Z)
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models [0.0]
高品質なデータに事前訓練された大規模なモデルは、様々な推論タスクにおいて優れたパフォーマンスを示す。より小さな学生モデルは教師モデルから学び、質問を言い換えるなどのデータ拡張を行う。これらの努力にもかかわらず、より小さなモデルは算術計算に苦慮し、数学的推論の誤りにつながる。
論文参考訳（メタデータ） (2025-02-18T13:43:06Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs [69.55103380185612]
本稿では,変圧器を用いた大規模言語モデルの数学的タスクにおける有効性に影響を与える重要な要因として,数値的精度を同定する。その結果,数値精度の低いトランスフォーマーでは,繰り返し加算や整数乗算などの算術的なタスクに対処できないことがわかった。対照的に、標準的な数値精度のトランスフォーマーは、モデルサイズを大幅に小さくすることで、これらのタスクを効率的に処理することができる。
論文参考訳（メタデータ） (2024-10-17T17:59:35Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Transformers Can Do Arithmetic with the Right Embeddings [75.66545271398704]
算術演算における変換器の性能向上について述べる。たった20桁の数値で1日1GPUでトレーニングすれば、最先端のパフォーマンスに到達できます。これらの数的増加は、ソートや乗算を含む他の多段階の推論タスクの改善を解放する。
論文参考訳（メタデータ） (2024-05-27T17:49:18Z)
Increasing Trust in Language Models through the Reuse of Verified Circuits [1.8434042562191815]
言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視します。数学的および論理的に定義されたフレームワークを使用して構築すれば、この標準を満たすようにモデルをトレーニングできることが示される。両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。
論文参考訳（メタデータ） (2024-02-04T21:33:18Z)
Positional Description Matters for Transformers Arithmetic [58.4739272381373]
トランスフォーマーは、大きな能力にもかかわらず、算術的なタスクに干渉することが多い。位置エンコーディングを直接修正するか、あるいは算術タスクの表現を変更して、標準的な位置エンコーディングを異なる方法で活用することで、問題を解決する方法をいくつか提案する。
論文参考訳（メタデータ） (2023-11-22T00:31:01Z)
It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models [6.065846799248359]
大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。 n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
論文参考訳（メタデータ） (2023-08-16T10:09:42Z)
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文参考訳（メタデータ） (2023-07-31T22:58:41Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
Generalization on the Unseen, Logic Reasoning and Degree Curriculum [25.7378861650474]
本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
論文参考訳（メタデータ） (2023-01-30T17:44:05Z)
On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T17:12:32Z)
Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文参考訳（メタデータ） (2021-03-09T06:39:56Z)
Investigating the Limitations of the Transformers with Simple Arithmetic Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文参考訳（メタデータ） (2021-02-25T17:22:53Z)
I-BERT: Inductive Generalization of Transformer to Arbitrary Context Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文参考訳（メタデータ） (2020-06-18T00:56:12Z)
iNALU: Improved Neural Arithmetic Logic Unit [2.331160520377439]
最近提案されたNeural Arithmetic Logic Unit (NALU)は、ネットワークのユニットによって数学的関係を明確に表現し、和、減算、乗算などの操作を学ぶことができる新しいニューラルネットワークである。本稿では,本モデルが安定性の問題を解き,算術精度と収束性により元のNALUモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-03-17T10:37:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。