Fugu-MT 論文翻訳(概要): Thinking Like Transformers

論文の概要: Thinking Like Transformers

arxiv url: http://arxiv.org/abs/2106.06981v1
Date: Sun, 13 Jun 2021 13:04:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-15 16:31:38.010922
Title: Thinking Like Transformers
Title（参考訳）: トランスフォーマーのように考える
Authors: Gail Weiss, Yoav Goldberg, Eran Yahav
Abstract要約: 本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。 RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
参考スコア（独自算出の注目度）: 64.96770952820691
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: What is the computational model behind a Transformer? Where recurrent neural networks have direct parallels in finite state machines, allowing clear discussion and thought around architecture variants or trained models, Transformers have no such familiar parallel. In this paper we aim to change that, proposing a computational model for the transformer-encoder in the form of a programming language. We map the basic components of a transformer-encoder -- attention and feed-forward computation -- into simple primitives, around which we form a programming language: the Restricted Access Sequence Processing Language (RASP). We show how RASP can be used to program solutions to tasks that could conceivably be learned by a Transformer, and how a Transformer can be trained to mimic a RASP solution. In particular, we provide RASP programs for histograms, sorting, and Dyck-languages. We further use our model to relate their difficulty in terms of the number of required layers and attention heads: analyzing a RASP program implies a maximum number of heads and layers necessary to encode a task in a transformer. Finally, we see how insights gained from our abstraction might be used to explain phenomena seen in recent works.
Abstract（参考訳）: Transformerの背後にある計算モデルは何ですか? リカレントニューラルネットワークは有限状態マシンに直接的な並列性を持ち、アーキテクチャの変種や訓練されたモデルに関する明確な議論と考察を可能にする。本稿では,プログラミング言語の形でトランスフォーマエンコーダの計算モデルを提案することで,それを変えることを目的とする。我々はトランスフォーマー・エンコーダの基本コンポーネント -- 注意とフィードフォワード計算 -- を単純なプリミティブにマッピングし、そこでプログラミング言語を形成する: 制限付きアクセスシーケンス処理言語(RASP)。 RASP が Transformer で学習可能なタスクに対するソリューションプログラムにどのように使用できるか,そして RASP ソリューションを模倣するために Transformer をどのようにトレーニングできるかを示す。特に、ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。 RASPプログラムを解析すると,タスクをトランスフォーマーにエンコードするために必要な最大数のヘッドとレイヤが示される。最後に、最近の研究で見られる現象を説明するために、抽象化から得られた洞察がどのように使われるかを見る。

関連論文リスト

Tracr-Injection: Distilling Algorithms into Pre-trained Language Models [2.532202013576547]
本稿では, RASP で書かれたアルゴリズムを事前学習した言語モデルに直接蒸留する方法である tracr-injection を提案する。提案手法はモデル残差ストリーム内の解釈可能な部分空間をどうやって生成するかを示し, RASP アルゴリズムに存在する変数に復号化することができる。
論文参考訳（メタデータ） (2025-05-15T21:43:51Z)
Mechanisms of Symbol Processing for In-Context Learning in Transformer Networks [78.54913566111198]
大規模言語モデル(LLM)は、文脈内学習(ICL)によるシンボル処理における印象的な能力を示した。トランスネットワークにおけるロバストなシンボル処理を実現するメカニズムの解明を目指す。複雑で抽象的なシンボル処理を行うための記号プログラムを記述できる高レベル言語 PSL を開発した。
論文参考訳（メタデータ） (2024-10-23T01:38:10Z)
Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文参考訳（メタデータ） (2024-10-07T20:31:13Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。 CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-06-13T16:42:06Z)
AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文参考訳（メタデータ） (2024-02-21T07:07:54Z)
Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。 Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文参考訳（メタデータ） (2023-06-01T20:27:01Z)
An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文参考訳（メタデータ） (2023-04-20T14:54:19Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。