Fugu-MT 論文翻訳(概要): Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials

論文の概要: Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials

arxiv url: http://arxiv.org/abs/2402.16726v3
Date: Mon, 18 Nov 2024 02:56:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.027931
Title: Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials
Title（参考訳）: モジュラー多項式上のグロッケ変圧器の内部回路と特性の実証解釈に向けて
Authors: Hiroki Furuta, Gouki Minegishi, Yusuke Iwasawa, Yutaka Matsuo,
Abstract要約: モジュラー加算のグロキングは、変換器の三角形状のフーリエ表現とその計算回路を実装することが知られている。各操作でグラクされたモデル間の転送性は、特定の組み合わせに限られることを示す。マルチタスクの混合によってコグルーキングが発生し、すべてのタスクで同時にグルーキングが発生する。
参考スコア（独自算出の注目度）: 29.09237503747052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Grokking has been actively explored to reveal the mystery of delayed generalization and identifying interpretable representations and algorithms inside the grokked models is a suggestive hint to understanding its mechanism. Grokking on modular addition has been known to implement Fourier representation and its calculation circuits with trigonometric identities in Transformers. Considering the periodicity in modular arithmetic, the natural question is to what extent these explanations and interpretations hold for the grokking on other modular operations beyond addition. For a closer look, we first hypothesize that any modular operations can be characterized with distinctive Fourier representation or internal circuits, grokked models obtain common features transferable among similar operations, and mixing datasets with similar operations promotes grokking. Then, we extensively examine them by learning Transformers on complex modular arithmetic tasks, including polynomials. Our Fourier analysis and novel progress measure for modular arithmetic, Fourier Frequency Density and Fourier Coefficient Ratio, characterize distinctive internal representations of grokked models per modular operation; for instance, polynomials often result in the superposition of the Fourier components seen in elementary arithmetic, but clear patterns do not emerge in challenging non-factorizable polynomials. In contrast, our ablation study on the pre-grokked models reveals that the transferability among the models grokked with each operation can be only limited to specific combinations, such as from elementary arithmetic to linear expressions. Moreover, some multi-task mixtures may lead to co-grokking -- where grokking simultaneously happens for all the tasks -- and accelerate generalization, while others may not find optimal solutions. We provide empirical steps towards the interpretability of internal circuits.
Abstract（参考訳）: グロキングは遅れた一般化の謎を明らかにするために活発に研究され、グルーク付きモデル内の解釈可能な表現とアルゴリズムを特定することは、そのメカニズムを理解するための示唆的なヒントである。モジュラー加算のグロキングは、変換器の三角形状のフーリエ表現とその計算回路を実装することが知られている。モジュラー算術の周期性を考えると、自然な疑問はこれらの説明や解釈が加法以外のモジュラー演算に対してどの程度の程度で成立するかである。より詳しく見ていくために、まずモジュラー演算はフーリエ表現や内部回路で特徴付けることができると仮定し、グルークされたモデルは類似した演算で転送可能な共通特徴を得るとともに、類似した演算でデータセットを混合することでグラクキングを促進する。そこで我々は,多項式を含む複雑なモジュラー演算タスク上でトランスフォーマーを学習することにより,それらを広範囲に検証する。我々のモジュラー算術におけるフーリエ解析と新しい進歩測度、フーリエ周波数密度およびフーリエ係数比は、モジュラー演算毎のグルーク付きモデルの特異な内部表現を特徴づける。これとは対照的に,プレグロッケモデルに対するアブレーション研究では,各操作でグラクされたモデル間の移動性は,初等算術から線形表現まで,特定の組み合わせに限定できることが示されている。さらに、いくつかのマルチタスク混合はコグルーキング(英語版) (co-grokking) を引き起こし、全てのタスクで同時にグルーキングが発生し、一般化を加速する。内部回路の解釈可能性に関する実証的なステップを提供する。

関連論文リスト

Loss-Complexity Landscape and Model Structure Functions [56.01537787608726]
我々はコルモゴロフ構造関数 $h_x(alpha)$ を双対化するためのフレームワークを開発する。情報理論構造と統計力学の数学的類似性を確立する。構造関数と自由エネルギーの間のルジャンドル・フェンシェル双対性を明確に証明する。
論文参考訳（メタデータ） (2025-07-17T21:31:45Z)
Learning Modular Exponentiation with Transformers [0.0]
4層エンコーダ・デコーダ・トランスモデルをトレーニングし、モジュラー指数化を行う。相互学習は高い性能向上をもたらし、関連するモジュラーを突如に一般化する。これらの結果から,変圧器モデルは特殊計算回路を用いてモジュラー演算を学習することが示唆された。
論文参考訳（メタデータ） (2025-06-30T10:00:44Z)
Matrix Elements of Fermionic Gaussian Operators in Arbitrary Pauli Bases: A Pfaffian Formula [0.0]
任意のパウリ積状態の間のフェルミオンガウス作用素の行列要素に対して、完全に明示的で一般のファフ公式を導入する。その結果生まれたフレームワークは、さまざまな分野にわたるスケーラブルな計算を可能にします。
論文参考訳（メタデータ） (2025-06-03T12:37:06Z)
NeuralGrok: Accelerate Grokking by Neural Gradient Transformation [54.65707216563953]
算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。実験により,NeuralGrokは一般化を著しく加速することが示された。また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
論文参考訳（メタデータ） (2025-04-24T04:41:35Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Generalization of Modular Spread Complexity for Non-Hermitian Density Matrices [0.0]
この研究において、モジュラー拡散複雑性の概念を、還元密度行列が非エルミート的である場合に一般化する。エンタングルメントの容量を一般化する擬似容量を定義し、擬似モジュラー複雑性の初期モジュラー時間尺度に対応する。 2レベル系と4-量子ビット系の解析計算を行い、その後、横場イジングモデルの量子相転移に関する数値的な研究を行う。
論文参考訳（メタデータ） (2024-10-07T17:59:16Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks [5.522116934552708]
トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。本稿では,算術課題における変圧器の一般化動作を理解するための統一的理論枠組みを開発する。
論文参考訳（メタデータ） (2024-07-25T11:35:22Z)
Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations [56.78271181959529]
GAM(Generalized Additive Models)は、変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。本稿では,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用を融合させる形状表現算術(SHARE)を提案する。また、標準制約を超えた表現の透明性を保証するSHAREを構築するための一連のルールを設計する。
論文参考訳（メタデータ） (2024-04-15T13:44:01Z)
Discovering modular solutions that generalize compositionally [55.46688816816882]
実演から純粋に線形変換までを識別することは、指数関数的な数の加群の組み合わせを学習することなく可能であることを示す。さらに, 有限データからのメタラーニングにより, 多くの複雑な環境において, 構成を一般化するモジュラーポリシが発見可能であることを実証的に実証した。
論文参考訳（メタデータ） (2023-12-22T16:33:50Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data [2.2871867623460207]
多くのアプリケーションでは、データは異なるタイプの変数にまたがる。最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。完全混合型の変数を持つデータに対して,フレキシブルでスケーラブルな手法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:21:31Z)
Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文参考訳（メタデータ） (2021-10-19T16:36:19Z)
A Compositional Atlas of Tractable Circuit Operations: From Simple Transformations to Complex Information-Theoretic Queries [44.36335714431731]
本稿では,回路上のモジュラー操作において,機械学習の複雑な推論シナリオがいかに表現できるかを示す。文献におけるいくつかの結果を一般化し,新たな抽出可能な推論シナリオを開放する,抽出可能なモデルについて推論するための統一的な枠組みを導出する。
論文参考訳（メタデータ） (2021-02-11T17:26:32Z)
A Deep Joint Sparse Non-negative Matrix Factorization Framework for Identifying the Common and Subject-specific Functional Units of Tongue Motion During Speech [7.870139900799612]
音声中の舌運動の共通および主観的機能単位を特定するための新しいディープラーニングフレームワークを開発した。スパースとグラフ正規化によるNMFを、ディープニューラルネットワークに似たモジュラーアーキテクチャに変換する。
論文参考訳（メタデータ） (2020-07-09T15:05:44Z)
From Sets to Multisets: Provable Variational Inference for Probabilistic Integer Submodular Models [82.95892656532696]
サブモジュール関数は機械学習やデータマイニングにおいて広く研究されている。本研究では,整数部分モジュラ函数に対する連続DR-部分モジュラ拡張を提案する。整数部分モジュラー関数によって定義される新しい確率モデルを定式化する。
論文参考訳（メタデータ） (2020-06-01T22:20:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。