論文の概要: Thinking Like Transformers
- arxiv url: http://arxiv.org/abs/2106.06981v1
- Date: Sun, 13 Jun 2021 13:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:31:38.010922
- Title: Thinking Like Transformers
- Title(参考訳): トランスフォーマーのように考える
- Authors: Gail Weiss, Yoav Goldberg, Eran Yahav
- Abstract要約: 本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
- 参考スコア(独自算出の注目度): 64.96770952820691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is the computational model behind a Transformer? Where recurrent neural
networks have direct parallels in finite state machines, allowing clear
discussion and thought around architecture variants or trained models,
Transformers have no such familiar parallel. In this paper we aim to change
that, proposing a computational model for the transformer-encoder in the form
of a programming language. We map the basic components of a transformer-encoder
-- attention and feed-forward computation -- into simple primitives, around
which we form a programming language: the Restricted Access Sequence Processing
Language (RASP). We show how RASP can be used to program solutions to tasks
that could conceivably be learned by a Transformer, and how a Transformer can
be trained to mimic a RASP solution. In particular, we provide RASP programs
for histograms, sorting, and Dyck-languages. We further use our model to relate
their difficulty in terms of the number of required layers and attention heads:
analyzing a RASP program implies a maximum number of heads and layers necessary
to encode a task in a transformer. Finally, we see how insights gained from our
abstraction might be used to explain phenomena seen in recent works.
- Abstract(参考訳): Transformerの背後にある計算モデルは何ですか?
リカレントニューラルネットワークは有限状態マシンに直接的な並列性を持ち、アーキテクチャの変種や訓練されたモデルに関する明確な議論と考察を可能にする。
本稿では,プログラミング言語の形でトランスフォーマエンコーダの計算モデルを提案することで,それを変えることを目的とする。
我々はトランスフォーマー・エンコーダの基本コンポーネント -- 注意とフィードフォワード計算 -- を単純なプリミティブにマッピングし、そこでプログラミング言語を形成する: 制限付きアクセスシーケンス処理言語(RASP)。
RASP が Transformer で学習可能なタスクに対するソリューションプログラムにどのように使用できるか,そして RASP ソリューションを模倣するために Transformer をどのようにトレーニングできるかを示す。
特に、ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
RASPプログラムを解析すると,タスクをトランスフォーマーにエンコードするために必要な最大数のヘッドとレイヤが示される。
最後に、最近の研究で見られる現象を説明するために、抽象化から得られた洞察がどのように使われるかを見る。
関連論文リスト
- Mechanisms of Symbol Processing for In-Context Learning in Transformer Networks [78.54913566111198]
大規模言語モデル(LLM)は、文脈内学習(ICL)によるシンボル処理における印象的な能力を示した。
トランスネットワークにおけるロバストなシンボル処理を実現するメカニズムの解明を目指す。
複雑で抽象的なシンボル処理を行うための記号プログラムを記述できる高レベル言語 PSL を開発した。
論文 参考訳(メタデータ) (2024-10-23T01:38:10Z) - Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。