論文の概要: Thinking Like Transformers
- arxiv url: http://arxiv.org/abs/2106.06981v1
- Date: Sun, 13 Jun 2021 13:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:31:38.010922
- Title: Thinking Like Transformers
- Title(参考訳): トランスフォーマーのように考える
- Authors: Gail Weiss, Yoav Goldberg, Eran Yahav
- Abstract要約: 本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
- 参考スコア(独自算出の注目度): 64.96770952820691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is the computational model behind a Transformer? Where recurrent neural
networks have direct parallels in finite state machines, allowing clear
discussion and thought around architecture variants or trained models,
Transformers have no such familiar parallel. In this paper we aim to change
that, proposing a computational model for the transformer-encoder in the form
of a programming language. We map the basic components of a transformer-encoder
-- attention and feed-forward computation -- into simple primitives, around
which we form a programming language: the Restricted Access Sequence Processing
Language (RASP). We show how RASP can be used to program solutions to tasks
that could conceivably be learned by a Transformer, and how a Transformer can
be trained to mimic a RASP solution. In particular, we provide RASP programs
for histograms, sorting, and Dyck-languages. We further use our model to relate
their difficulty in terms of the number of required layers and attention heads:
analyzing a RASP program implies a maximum number of heads and layers necessary
to encode a task in a transformer. Finally, we see how insights gained from our
abstraction might be used to explain phenomena seen in recent works.
- Abstract(参考訳): Transformerの背後にある計算モデルは何ですか?
リカレントニューラルネットワークは有限状態マシンに直接的な並列性を持ち、アーキテクチャの変種や訓練されたモデルに関する明確な議論と考察を可能にする。
本稿では,プログラミング言語の形でトランスフォーマエンコーダの計算モデルを提案することで,それを変えることを目的とする。
我々はトランスフォーマー・エンコーダの基本コンポーネント -- 注意とフィードフォワード計算 -- を単純なプリミティブにマッピングし、そこでプログラミング言語を形成する: 制限付きアクセスシーケンス処理言語(RASP)。
RASP が Transformer で学習可能なタスクに対するソリューションプログラムにどのように使用できるか,そして RASP ソリューションを模倣するために Transformer をどのようにトレーニングできるかを示す。
特に、ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
RASPプログラムを解析すると,タスクをトランスフォーマーにエンコードするために必要な最大数のヘッドとレイヤが示される。
最後に、最近の研究で見られる現象を説明するために、抽象化から得られた洞察がどのように使われるかを見る。
関連論文リスト
- What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Looped Transformers as Programmable Computers [48.00010456819222]
本稿では,トランスフォーマーネットワークを,特定の重みでプログラミングし,ループに配置することで,ユニバーサルコンピュータとして利用するフレームワークを提案する。
我々の入力シーケンスは、データ読み書きのための命令とメモリからなるパンチカードとして機能する。
この変換器は、入力によって指示され、基本計算器、基本線形代数ライブラリ、およびバックプロパゲーションを用いたコンテキスト内学習アルゴリズムをエミュレートできることを示す。
論文 参考訳(メタデータ) (2023-01-30T18:57:31Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。