論文の概要: Modular addition without black-boxes: Compressing explanations of MLPs that compute numerical integration
- arxiv url: http://arxiv.org/abs/2412.03773v1
- Date: Wed, 04 Dec 2024 23:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:08.775939
- Title: Modular addition without black-boxes: Compressing explanations of MLPs that compute numerical integration
- Title(参考訳): ブラックボックスなしモジュール加算:数値積分を演算するMLPの圧縮説明
- Authors: Chun Hei Yip, Rajashree Agrawal, Lawrence Chan, Jason Gross,
- Abstract要約: 非線形特徴写像を厳密に圧縮する最初のケーススタディを示す。
我々は、回路のパラメータ数において、ReLUの動作に非空き境界を線形に設定する。
- 参考スコア(独自算出の注目度): 1.7679702431368263
- License:
- Abstract: The goal of mechanistic interpretability is discovering simpler, low-rank algorithms implemented by models. While we can compress activations into features, compressing nonlinear feature-maps -- like MLP layers -- is an open problem. In this work, we present the first case study in rigorously compressing nonlinear feature-maps, which are the leading asymptotic bottleneck to compressing small transformer models. We work in the classic setting of the modular addition models, and target a non-vacuous bound on the behaviour of the ReLU MLP in time linear in the parameter-count of the circuit. To study the ReLU MLP analytically, we use the infinite-width lens, which turns post-activation matrix multiplications into approximate integrals. We discover a novel interpretation of} the MLP layer in one-layer transformers implementing the ``pizza'' algorithm: the MLP can be understood as evaluating a quadrature scheme, where each neuron computes the area of a rectangle under the curve of a trigonometric integral identity. Our code is available at https://tinyurl.com/mod-add-integration.
- Abstract(参考訳): 機械的解釈可能性の目標は、モデルによって実装されたより単純で低ランクなアルゴリズムを発見することである。
アクティベーションを機能に圧縮することは可能ですが、MLP層のような非線形なフィーチャーマップを圧縮することは、オープンな問題です。
本研究では, 非線形特徴写像を厳密に圧縮する最初のケーススタディを示す。
我々はモジュール加算モデルの古典的な設定で作業を行い、回路のパラメータ数に時間線形にReLU MLPの挙動に非空き境界をあてる。
ReLU MLPを解析的に研究するために、アクティベーション後の行列乗算を近似積分に変換する無限幅レンズを用いる。
我々は,一層変換器のMLP層を 'pizza'' アルゴリズムで表す新しい解釈を見いだす: MLP は二次的スキームの評価として理解でき,各ニューロンが三角積分単位の曲線の下で矩形の面積を計算する。
私たちのコードはhttps://tinyurl.com/mod-add-integration.comで利用可能です。
関連論文リスト
- Converting MLPs into Polynomials in Closed Form [0.7234862895932991]
我々は、フィードフォワードネットワークの理論的に閉じた最小二乗近似を導出する。
本研究では,2次近似法を用いて,SVDに基づく逆数例を作成できることを示す。
論文 参考訳(メタデータ) (2025-02-03T03:54:41Z) - Partially Rewriting a Transformer in Natural Language [0.7234862895932991]
簡単な自然言語の説明を用いて,大規模な言語モデルを部分的に書き直そうと試みる。
我々は、このスパースの最初の層を、各ニューロンの活性化を予測するLCMベースのシミュレーターで置き換える。
これらの修正がモデルの最終出力を歪める程度を測定する。
論文 参考訳(メタデータ) (2025-01-31T01:12:50Z) - From MLP to NeoMLP: Leveraging Self-Attention for Neural Fields [26.659511924272962]
我々は,NeoMLPと呼ばれる,隠れたスケーラブルなノードに基づく新しいタイプの接続性を開発している。
マルチモーダル音声・視覚データを含む高分解能信号を取り付けることで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-12-11T19:01:38Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression [30.71965784982577]
我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。
MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
論文 参考訳(メタデータ) (2023-07-28T09:11:37Z) - ReLU Fields: The Little Non-linearity That Could [62.228229880658404]
我々は,高忠実度結果の保持を可能にするグリッドベース表現に対する最小の変更点について検討する。
このようなアプローチが最先端技術と競合することを示します。
論文 参考訳(メタデータ) (2022-05-22T13:42:31Z) - Rethinking Network Design and Local Geometry in Point Cloud: A Simple
Residual MLP Framework [55.40001810884942]
我々は、洗練された局所幾何学的抽出器を組み込んだ純粋な残留ネットワークPointMLPを導入するが、それでも非常に競争力がある。
実世界のScanObjectNNデータセットでは,従来のベストメソッドを3.3%の精度で上回ります。
最新のCurveNetと比較して、PointMLPは2倍速く、テストは7倍速く、ModelNet40ベンチマークではより正確である。
論文 参考訳(メタデータ) (2022-02-15T01:39:07Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。