論文の概要: Pre-trained Large Language Models Use Fourier Features to Compute Addition
- arxiv url: http://arxiv.org/abs/2406.03445v1
- Date: Wed, 5 Jun 2024 16:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:22:00.316516
- Title: Pre-trained Large Language Models Use Fourier Features to Compute Addition
- Title(参考訳): 事前訓練された大規模言語モデルでは、演算加算にフーリエ機能を使用する
- Authors: Tianyi Zhou, Deqing Fu, Vatsal Sharan, Robin Jia,
- Abstract要約: 事前訓練された大規模言語モデル(LLM)は、驚くべき数学的推論能力を示す。
加法などの基本的な算術の計算方法はまだ不明である。
- 参考スコア(独自算出の注目度): 37.56242478466735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models (LLMs) exhibit impressive mathematical reasoning capabilities, yet how they compute basic arithmetic, such as addition, remains unclear. This paper shows that pre-trained LLMs add numbers using Fourier features -- dimensions in the hidden state that represent numbers via a set of features sparse in the frequency domain. Within the model, MLP and attention layers use Fourier features in complementary ways: MLP layers primarily approximate the magnitude of the answer using low-frequency features, while attention layers primarily perform modular addition (e.g., computing whether the answer is even or odd) using high-frequency features. Pre-training is crucial for this mechanism: models trained from scratch to add numbers only exploit low-frequency features, leading to lower accuracy. Introducing pre-trained token embeddings to a randomly initialized model rescues its performance. Overall, our analysis demonstrates that appropriate pre-trained representations (e.g., Fourier features) can unlock the ability of Transformers to learn precise mechanisms for algorithmic tasks.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、優れた数学的推論能力を示すが、加法などの基本的な算術的な計算方法はまだ不明である。
本稿では,Fourier 特徴量を用いて事前学習した LLM が,周波数領域でスパースな特徴集合を通じて数値を表す隠蔽状態の次元を数値に付加することを示す。
MLP層は、主に低周波特徴を用いて解の規模を近似し、注意層は、高周波特徴を用いたモジュラー加算(例えば、その解が偶数であるか奇数であるかの計算)を行う。
このメカニズムには事前トレーニングが不可欠である。スクラッチからトレーニングされ、低周波の特徴のみを活用する数値を追加するモデルにより、精度が低下する。
ランダムに初期化されたモデルに事前訓練されたトークン埋め込みを導入することで、そのパフォーマンスが救われる。
解析により,アルゴリズムタスクの正確なメカニズムを学習するトランスフォーマーの能力が,適切な事前学習された表現(例えば,フーリエ機能)を解き放つことを示した。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - On Sequential Loss Approximation for Continual Learning [0.0]
連続学習用オートディフ2次統合(AQC)とニューラル・コンソリデーション(NC)について紹介する。
AQCは前回の損失関数を二次関数に近似し、NCは前回の損失関数をニューラルネットワークに近似する。
本研究では,これらの手法を,正規化に基づく手法が不満足な結果をもたらすクラス増分学習において実証的に研究する。
論文 参考訳(メタデータ) (2024-05-26T09:20:47Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Basis Function Encoding of Numerical Features in Factorization Machines
for Improved Accuracy [2.3022070933226217]
FM変種に数値的特徴を組み込む体系的・理論的に最適化された方法を提案する。
提案手法は,選択した関数の集合にまたがる数値特徴の分数化関数を学習するモデルであることを示す。
本手法は,高速な学習と推論を保存し,FMモデルの計算グラフのわずかな修正しか必要としない。
論文 参考訳(メタデータ) (2023-05-23T21:10:17Z) - Inexact iterative numerical linear algebra for neural network-based
spectral estimation and rare-event prediction [0.0]
遷移作用素の固有関数を導くことは視覚化に有用である。
我々はこれらの固有関数を計算するための不正確な反復線形代数法を開発する。
論文 参考訳(メタデータ) (2023-03-22T13:07:03Z) - Transformers Can Do Bayesian Inference [28.936428431504165]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模な機械学習技術を利用して、大規模な後部集合を近似する。
我々はPFNがガウス過程をほぼ完璧に模倣できることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Learning Set Functions that are Sparse in Non-Orthogonal Fourier Bases [73.53227696624306]
フーリエスパース集合関数を学習するための新しいアルゴリズム群を提案する。
Walsh-Hadamard変換に焦点をあてた他の研究とは対照的に、我々の新しいアルゴリズムは最近導入された非直交フーリエ変換で機能する。
いくつかの実世界のアプリケーションで有効性を示す。
論文 参考訳(メタデータ) (2020-10-01T14:31:59Z) - Fourier Features Let Networks Learn High Frequency Functions in Low
Dimensional Domains [69.62456877209304]
単純なフーリエ特徴写像を通して入力点を渡すことで、多層パーセプトロンが高周波関数を学習できることを示す。
結果は、最先端の結果を達成するコンピュータビジョンとグラフィックの進歩に光を当てた。
論文 参考訳(メタデータ) (2020-06-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。