論文の概要: Arithmetic in Transformers Explained
- arxiv url: http://arxiv.org/abs/2402.02619v9
- Date: Fri, 14 Feb 2025 04:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:40.336672
- Title: Arithmetic in Transformers Explained
- Title(参考訳): 変圧器の算術的説明
- Authors: Philip Quirke, Clement Neo, Fazl Barez,
- Abstract要約: 我々は、加算、減算、または両方で訓練された44個の自己回帰トランスモデルを解析する。
加算モデルが共通論理アルゴリズムに収束し、ほとんどのモデルが99.999%の精度で予測できることを示す。
我々は,これらのアルゴリズム回路を定義し,発見し,視覚化するために,機械的解釈可能性ツールの再利用ライブラリを導入する。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License:
- Abstract: While recent work has shown transformers can learn addition, previous models exhibit poor prediction accuracy and are limited to small numbers. Furthermore, the relationship between single-task and multitask arithmetic capabilities remains unexplored. In this work, we analyze 44 autoregressive transformer models trained on addition, subtraction, or both. These include 16 addition-only models, 2 subtraction-only models, 8 "mixed" models trained to perform addition and subtraction, and 14 mixed models initialized with parameters from an addition-only model. The models span 5- to 15-digit questions, 2 to 4 attention heads, and 2 to 3 layers. We show that the addition models converge on a common logical algorithm, with most models achieving >99.999% prediction accuracy. We provide a detailed mechanistic explanation of how this algorithm is implemented within the network architecture. Subtraction-only models have lower accuracy. With the initialized mixed models, through parameter transfer experiments, we explore how multitask learning dynamics evolve, revealing that some features originally specialized for addition become polysemantic, serving both operations, and boosting subtraction accuracy. We explain the mixed algorithm mechanically. Finally, we introduce a reusable library of mechanistic interpretability tools to define, locate, and visualize these algorithmic circuits across multiple models.
- Abstract(参考訳): 最近の研究では、トランスフォーマーが追加を学習できることが示されているが、以前のモデルでは予測精度が低く、少数に限られていた。
さらに、シングルタスクとマルチタスクの算術能力の関係は未解明のままである。
本研究では、加算、減算、あるいはその両方で訓練された44個の自己回帰トランスモデルを解析する。
追加のみのモデル16、サブトラクションのみのモデル2、追加とサブトラクションを実行するために訓練された8つの「混合」モデル、追加のみのモデルからパラメータを初期化した14の混合モデルが含まれる。
モデルは5桁から15桁の質問、2から4つの注意、そして2から3層に及ぶ。
加算モデルが共通論理アルゴリズムに収束し、ほとんどのモデルが99.999%の精度で予測できることを示す。
本稿では,このアルゴリズムがネットワークアーキテクチャ内でどのように実装されているのかを詳細に解説する。
減算のみのモデルは精度が低い。
初期化混合モデルを用いて、パラメータ移動実験を通じて、マルチタスク学習のダイナミクスがどのように進化するかを探求し、もともと加法に特化していたいくつかの特徴が多意味化され、両方の操作に役立ち、サブトラクション精度が向上することを明らかにする。
混合アルゴリズムを機械的に説明する。
最後に、これらのアルゴリズム回路を複数のモデルにまたがって定義し、発見し、視覚化するための、機械的解釈可能性ツールの再利用ライブラリを導入する。
関連論文リスト
- Towards a unified and verified understanding of group-operation networks [0.8305049591788082]
有限群の二元演算を訓練した一層ニューラルネットワークの内部構造について検討した。
我々は、以前の作品の説明を統一するためのステップとして、そのようなモデルのより完全な記述を作成する。
論文 参考訳(メタデータ) (2024-10-09T23:02:00Z) - Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Interpretable models for extrapolation in scientific machine learning [0.0]
複雑な機械学習アルゴリズムは、補間的設定において単純な回帰よりも優れていることが多い。
本稿では, モデル性能と解釈可能性のトレードオフを, 幅広い科学・工学的問題にまたがって検討する。
論文 参考訳(メタデータ) (2022-12-16T19:33:28Z) - Inter-model Interpretability: Self-supervised Models as a Case Study [0.2578242050187029]
テキスト・インター・モデル・インタプリタビリティを導入するためのDissectと呼ばれる最近の解釈可能性技術を構築した。
我々は、学習概念の観点から、モデル間の近さを明らかにする学習概念埋め込み空間に、トップパフォーマンスの自己教師型モデル13を投影する。
この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。
論文 参考訳(メタデータ) (2022-07-24T22:50:18Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。