論文の概要: Constructing Efficient Fact-Storing MLPs for Transformers
- arxiv url: http://arxiv.org/abs/2512.00207v1
- Date: Fri, 28 Nov 2025 21:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.111391
- Title: Constructing Efficient Fact-Storing MLPs for Transformers
- Title(参考訳): 変圧器の効率的なFact-Storing MLPの構成
- Authors: Owen Dugan, Roberto Garcia, Ronny Junkins, Jerry Liu, Dylan Zinsley, Sabri Eyuboglu, Atri Rudra, Chris Ré,
- Abstract要約: 大きな言語モデルでファクトストアを構築するために、明示的な重み構造を構築します。
本稿では,1層トランスフォーマーのファクト・ストアリングのコンセプト実証を,テキスト全文によるモジュラ・ファクト・編集で同時に実施する。
- 参考スコア(独自算出の注目度): 9.371973249870207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The success of large language models (LLMs) can be attributed in part to their ability to efficiently store factual knowledge as key-value mappings within their MLP parameters. Recent work has proposed explicit weight constructions to build such fact-storing MLPs, providing an improved understanding of LLM fact storage mechanisms. In this paper, we introduce an MLP construction framework that improves over previous constructions in three areas: it 1) works for all but a measure-zero set of feasible input-output pairs, 2) achieves asymptotically optimal parameter efficiency matching information-theoretic bounds for some embeddings, and 3) maintains usability within Transformers for factual recall. Through our improvements, we 1) discover a metric on value embeddings that characterizes facts-per-parameter scaling for both constructed and gradient-descent-trained MLPs, 2) identify a simple encoder-decoder mechanism that empirically matches gradient-descent MLP facts-per-parameter asymptotics across all the inputs and outputs we test, and 3) uncover a fundamental tradeoff between an MLP's fact-storage capacity and its usability within Transformers. Finally, we demonstrate a proof-of-concept application of fact-storing MLPs: modular fact editing on one-layer Transformers by \textit{replacing entire MLPs at once}.
- Abstract(参考訳): 大規模言語モデル(LLMs)の成功は、MLPパラメータ内のキー-値マッピングとして事実知識を効率的に保存できることに起因する。
最近の研究は、そのような事実保存型MLPを構築するための明確な重み構造を提案しており、LLMの事実記憶機構の理解を深めている。
本稿では,従来の3つの領域において改善されたMLP構築フレームワークを提案する。
1) 可能な入力出力ペアの測度ゼロの集合以外は、すべてに作用する。
2)いくつかの埋め込みのための情報理論境界に適合する漸近的に最適なパラメータ効率を実現し、
3) 実際にリコールするためのトランスフォーマー内のユーザビリティを維持する。
改善を通じて、私たちは
1) パラメータごとのスケーリングを特徴付ける値埋め込みのメトリクスを, 構築および勾配学習型MLPの双方に対して発見する。
2) テストしたすべての入力および出力に対して,勾配差のMLP事実-パラメータごとの漸近を経験的に一致させる,単純なエンコーダデコーダ機構を同定する。
3)MLPのファクトストレージ能力とトランスフォーマーのユーザビリティとの根本的なトレードオフを明らかにする。
最後に,一層トランスフォーマー上での一層ファクト編集を同時に行うことで,ファクトストア型MLPのコンセプト実証を行う。
関連論文リスト
- PraxiMLP: A Threshold-based Framework for Efficient Three-Party MLP with Practical Security [3.0489147795290683]
PraxiMLPはプライバシ保護機械学習(PPML)のための高効率な3要素フレームワーク
PraxiMLPは算術領域内で完全に動作し、高価なクロスドメイン変換を避ける。
ローティングポイント数をサポートすることにより、PrxiMLPは非線形関数を正確に処理し、効率と精度の両方を劇的に改善する。
論文 参考訳(メタデータ) (2025-11-08T18:56:26Z) - Understanding Factual Recall in Transformers via Associative Memories [55.93756571457904]
浅層変圧器は、連想記憶の組み合わせを用いて、ほぼ最適な記憶能力を得ることができることを示す。
本研究では, 1層に1つの自己注意を持つ変圧器にパラメータを付加することにより, ファクトリコールタスクにおいて100%の精度が得られることを示す。
論文 参考訳(メタデータ) (2024-12-09T14:48:14Z) - MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
その結果, 合成環境における経験者の予期せぬ能力が浮き彫りになった。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。