論文の概要: Weight-based Decomposition: A Case for Bilinear MLPs
- arxiv url: http://arxiv.org/abs/2406.03947v1
- Date: Thu, 6 Jun 2024 10:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:19:49.553888
- Title: Weight-based Decomposition: A Case for Bilinear MLPs
- Title(参考訳): 重みに基づく分解 : バイリニア MLP の1例
- Authors: Michael T. Pearce, Thomas Dooms, Alice Rigg,
- Abstract要約: GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。
Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。
双線型テンソルを相互作用する固有ベクトルの集合に分解する手法を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gated Linear Units (GLUs) have become a common building block in modern foundation models. Bilinear layers drop the non-linearity in the "gate" but still have comparable performance to other GLUs. An attractive quality of bilinear layers is that they can be fully expressed in terms of a third-order tensor and linear operations. Leveraging this, we develop a method to decompose the bilinear tensor into a set of sparsely interacting eigenvectors that show promising interpretability properties in preliminary experiments for shallow image classifiers (MNIST) and small language models (Tiny Stories). Since the decomposition is fully equivalent to the model's original computations, bilinear layers may be an interpretability-friendly architecture that helps connect features to the model weights. Application of our method may not be limited to pretrained bilinear models since we find that language models such as TinyLlama-1.1B can be finetuned into bilinear variants.
- Abstract(参考訳): GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。
Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。
双線型層の魅力的な性質は、3階テンソルと線形演算で完全に表現できることである。
そこで本研究では,双線形テンソルを,浅い画像分類器 (MNIST) と小さな言語モデル (Tiny Stories) の予備実験において,有望な解釈可能性特性を示す疎相互作用固有ベクトルの集合に分解する手法を開発した。
分解はモデルの本来の計算と完全に等価であるため、双線形層は、機能とモデルの重みを結びつけるのに役立つ解釈可能性に優しいアーキテクチャである。
TinyLlama-1.1Bのような言語モデルをバイリニア変種に微調整できるため,本手法の適用は事前訓練されたバイリニアモデルに限定されない可能性がある。
関連論文リスト
- Scaling Laws for Linear Complexity Language Models [18.787664489713332]
線形複雑性言語モデルのスケーリング法則を提示し、その拡張性の基礎を確立する。
この研究は、既存の線形複雑性言語モデルが従来のトランスフォーマーベースモデルと同様のスケーリング能力を示すことを示した。
論文 参考訳(メタデータ) (2024-06-24T14:51:31Z) - A technical note on bilinear layers for interpretability [0.0]
双線型層は数学的に解析し易いタイプの層である。
バイリニア層に対するこの表現を変換回路の数学的枠組みに統合することができる。
論文 参考訳(メタデータ) (2023-05-05T11:56:26Z) - BELIEF in Dependence: Leveraging Atomic Linearity in Data Bits for
Rethinking Generalized Linear Models [6.435660232678891]
我々は,バイナリ拡張線形効果(BELIEF)と呼ばれるフレームワークを開発し,任意の関係をバイナリ結果と理解する。
BELIEFフレームワークのモデルは、線形モデルの言語におけるバイナリ変数の関連性を記述するため、容易に解釈できる。
論文 参考訳(メタデータ) (2022-10-19T19:28:09Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Using Low-rank Representation of Abundance Maps and Nonnegative Tensor
Factorization for Hyperspectral Nonlinear Unmixing [28.064111391414773]
一般化双線形モデル(GBM)を解く非線形低ランクテンソルアンミックスアルゴリズムを提案する。
具体的には、GBMの線形部分と非線形部分の両方をテンソルとして表すことができる。
原子量マップと非線形相互作用マップの低ランク構造は、原子核ノルムを最小化する。
論文 参考訳(メタデータ) (2021-03-30T09:37:25Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Non-parametric Models for Non-negative Functions [48.7576911714538]
同じ良い線形モデルから非負関数に対する最初のモデルを提供する。
我々は、それが表現定理を認め、凸問題に対する効率的な二重定式化を提供することを証明した。
論文 参考訳(メタデータ) (2020-07-08T07:17:28Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。