論文の概要: The Transformer Cookbook
- arxiv url: http://arxiv.org/abs/2510.00368v1
- Date: Wed, 01 Oct 2025 00:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.301074
- Title: The Transformer Cookbook
- Title(参考訳): Transformer Cookbook
- Authors: Andy Yang, Christopher Watson, Anton Xue, Satwik Bhattamishra, Jose Llarena, William Merrill, Emile Dos Santos Ferreira, Anej Svete, David Chiang,
- Abstract要約: 本稿では、アルゴリズムを直接トランスフォーマーのパラメータに符号化するテクニックの集合であるトランスフォーマークックブックを紹介する。
フィードフォワード層における基本的な算術演算から、自己注意による複雑なデータルーティングまで、あらゆるものを実装する方法を示す。
- 参考スコア(独自算出の注目度): 24.533861358582524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the transformer cookbook: a collection of techniques for directly encoding algorithms into a transformer's parameters. This work addresses the steep learning curve of such endeavors, a problem exacerbated by a fragmented literature where key results are scattered across numerous papers. In particular, we synthesize this disparate body of findings into a curated set of recipes that demonstrate how to implement everything from basic arithmetic in feed-forward layers to complex data routing via self-attention. Our mise en place of formulations is for both newcomers seeking an accessible entry point and experts in need of a systematic reference. This unified presentation of transformer constructions provides a foundation for future work spanning theoretical research in computational complexity to empirical investigations in architecture design and interpretability.
- Abstract(参考訳): 本稿では、アルゴリズムを直接トランスフォーマーのパラメータに符号化するテクニックの集合であるトランスフォーマークックブックを紹介する。
この研究は、多くの論文に主要な結果が散在する断片化された文献によって悪化した、そのような取り組みの急激な学習曲線に対処する。
特に, フィードフォワード層における基本的な算術から, 自己注意による複雑なデータルーティングに至るまで, すべてを実装する方法を示すレシピの集合に, この異種の発見を合成する。
定式化の代償として、新参者がアクセス可能なエントリーポイントを求めることと、体系的な参照を必要とする専門家の両方に当てはまる。
このトランスフォーマー構成の統一的なプレゼンテーションは、計算複雑性に関する理論的研究から、アーキテクチャ設計と解釈可能性に関する実証的研究まで、将来の研究の基盤となる。
関連論文リスト
- On the Existence of Universal Simulators of Attention [17.01811978811789]
注意出力と基礎となる基本行列を同一に再現し、RASPを介してアクティベーション操作を行う方法を提案する。
我々の証明は、これまで学習によってのみ近似することが知られていたアルゴリズムによって達成可能なデータ非依存の解の存在を初めて示すものである。
論文 参考訳(メタデータ) (2025-06-23T15:15:25Z) - Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。
我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。
この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T05:41:46Z) - Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器の1次論理的推論能力をパラメータ化知識を用いて一般化する。
本稿では,一階述語論理エンターメントの性能を大幅に向上させる論理認識アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Looped Transformers are Better at Learning Learning Algorithms [16.98720552888865]
本稿ではループ変換器アーキテクチャとその学習手法について述べる。
実験結果から, ループ変換器は標準変圧器に匹敵する性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-11-21T08:32:38Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Do Syntax Trees Help Pre-trained Transformers Extract Information? [8.133145094593502]
本稿では,情報抽出タスクにおいて,依存木を事前学習した変換器に組み込むことの有用性について検討する。
依存関係構造を組み込むための2つの異なる戦略を提案し,検討する。
それらの性能向上は,人間による注釈付き依存関係解析の可用性に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-08-20T17:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。