論文の概要: Carrying over algorithm in transformers
- arxiv url: http://arxiv.org/abs/2401.07993v2
- Date: Wed, 17 Jan 2024 16:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:14:13.353405
- Title: Carrying over algorithm in transformers
- Title(参考訳): トランスフォーマーにおけるアルゴリズムの伝達
- Authors: Jorrit Kruthoff
- Abstract要約: オーバーアルゴリズムは2つのタスクから構成される:同じ位置に桁を追加し、必要に応じて1つ以上を運ぶ。
本研究では、トランスモデルがこのアルゴリズムをどのように実装し、上記の2つのタスクがネットワークの異なる部分にどのように割り当てられるかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addition is perhaps one of the simplest arithmetic tasks one can think of and
is usually performed using the carrying over algorithm. This algorithm consists
of two tasks: adding digits in the same position and carrying over a one
whenever necessary. We study how transformer models implement this algorithm
and how the two aforementioned tasks are allocated to different parts of the
network. We first focus on two-layer encoder-only models and show that the
carrying over algorithm is implemented in a modular fashion. The first layer is
mostly responsible for adding digits in the same position. The second layer
first decides, in the attention, which positions need a carried one or not, and
then performs the carrying of the one in the final MLP. We provide a simple way
of precisely identifying which neurons are responsible for that task. This
implementation of the carrying over algorithm occurs across a range of
hyperparameters for two as well as three-layer models. For small decoder-only
models, we observe the same implementation and provide suggestive evidence for
its existence in three 7B large language models.
- Abstract(参考訳): 加算はおそらく最も単純な算術的タスクの1つであり、通常、キャッシングオーバーアルゴリズムを用いて実行される。
このアルゴリズムは2つのタスクから成り、同じ位置に数字を追加し、必要に応じて1つの数字を運ぶ。
本研究では、トランスモデルがこのアルゴリズムをどのように実装し、上記の2つのタスクをネットワークの異なる部分に割り当てるかを検討する。
まず,2層エンコーダのみのモデルに注目し,乗換アルゴリズムがモジュール方式で実装されていることを示す。
第1層は、主に同じ位置に数字を追加する責任がある。
第2の層は、まず、どの位置が搬送されるかに注意して決定し、次に最終MLPで搬送する。
我々は、そのタスクにどのニューロンが責任を持つのかを正確に識別する簡単な方法を提供する。
このキャリングオーバーアルゴリズムの実装は、2つのハイパーパラメーターと3層のモデルの範囲にわたって行われる。
小型デコーダのみのモデルでは、同じ実装を観察し、3つの7B大言語モデルにその存在を示唆する証拠を提供する。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq
Models [16.49601740473416]
1つのモデルを他のモデルから初期化することで、トレーニング効率を向上させるためのレシピを探索する。
エンコーダを用いてSeq2seqのトレーニングを温めることで、Scratch Seq2seqモデルのタスク性能にマッチできることを示す。
論文 参考訳(メタデータ) (2023-06-14T21:41:52Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。