Fugu-MT 論文翻訳(概要): Coinductive guide to inductive transformer heads

論文の概要: Coinductive guide to inductive transformer heads

arxiv url: http://arxiv.org/abs/2302.01834v1
Date: Fri, 3 Feb 2023 16:19:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-06 15:43:30.176168
Title: Coinductive guide to inductive transformer heads
Title（参考訳）: インダクティブ変圧器ヘッドのインダクティブガイド
Authors: Adam Nemecek
Abstract要約: 変換モデルのすべての構成要素は、ホップ代数(Hopf algebra)という単一の概念で表現できると主張する。変換学習はホップ代数の代数的操作と合図的操作の間の相互作用の結果現れる。この性質は、ホップ代数が繰り返しスクアリングによって固有値を計算する驚くべき性質を持つという事実の結果である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We argue that all building blocks of transformer models can be expressed with a single concept: combinatorial Hopf algebra. Transformer learning emerges as a result of the subtle interplay between the algebraic and coalgebraic operations of the combinatorial Hopf algebra. Viewed through this lens, the transformer model becomes a linear time-invariant system where the attention mechanism computes a generalized convolution transform and the residual stream serves as a unit impulse. Attention-only transformers then learn by enforcing an invariant between these two paths. We call this invariant Hopf coherence. Due to this, with a degree of poetic license, one could call combinatorial Hopf algebras "tensors with a built-in loss function gradient". This loss function gradient occurs within the single layers and no backward pass is needed. This is in contrast to automatic differentiation which happens across the whole graph and needs a explicit backward pass. This property is the result of the fact that combinatorial Hopf algebras have the surprising property of calculating eigenvalues by repeated squaring.
Abstract（参考訳）: 我々は、トランスフォーマーモデルの全ての構成要素は単一の概念:組合せホップ代数で表現できると主張する。トランスフォーマー学習は、組合せホップ代数の代数的操作と代数的操作の間の微妙な相互作用の結果生じる。このレンズを通して見たトランスモデルは、注意機構が一般化畳み込み変換を計算し、残ストリームが単位インパルスとして機能する線形時間不変システムとなる。注意のみのトランスフォーマーは、これら2つのパスの間に不変性を持たせることによって学習する。これを不変ホップコヒーレンスと呼ぶ。このため、ある程度の詩的ライセンスがあれば、組合せホップ代数を「損失関数勾配を内蔵したテンソル」と呼ぶことができる。この損失関数勾配は単一の層内で発生し、後方通過は不要である。これはグラフ全体にわたって発生し、明示的な後方通過を必要とする自動微分とは対照的である。この性質は、組合せホップ代数が繰り返しスパーリングによって固有値を計算する驚くべき性質を持つという事実の結果である。

関連論文リスト

Disentangling strategies and entanglement transitions in unitary circuit games with matchgates [0.0]
ユニタリ回路ゲームでは、2つの競合するパーティ、すなわち「絡み合い」と「絡み合い」は、量子多体系において絡み合い相転移を誘導することができる。我々は、相互作用しないフェルミオンの進化と等価に一致するマッチゲートダイナミクスの文脈内でそのようなゲームを分析する。
論文参考訳（メタデータ） (2025-07-07T14:38:50Z)
Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文参考訳（メタデータ） (2024-06-26T16:13:35Z)
Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials [29.09237503747052]
モジュラー加算のグロキングは、変換器の三角形状のフーリエ表現とその計算回路を実装することが知られている。各操作でグラクされたモデル間の転送性は、特定の組み合わせに限られることを示す。マルチタスクの混合によってコグルーキングが発生し、すべてのタスクで同時にグルーキングが発生する。
論文参考訳（メタデータ） (2024-02-26T16:48:12Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文参考訳（メタデータ） (2022-07-02T03:49:34Z)
Projective characterization of higher-order quantum transformations [0.0]
本研究は,超作用素プロジェクタを用いた高次量子変換を特徴付ける枠組みを提案する。この研究の主な新規性は、'prec'コネクターの代数の導入である。これにより、射影フレームワーク内で特徴づけられる任意の写像の可能なシグナリング構造を評価することができる。
論文参考訳（メタデータ） (2022-06-13T14:36:28Z)
A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文参考訳（メタデータ） (2022-04-28T23:05:02Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。