Fugu-MT 論文翻訳(概要): Understanding Factual Recall in Transformers via Associative Memories

論文の概要: Understanding Factual Recall in Transformers via Associative Memories

arxiv url: http://arxiv.org/abs/2412.06538v1
Date: Mon, 09 Dec 2024 14:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.379823
Title: Understanding Factual Recall in Transformers via Associative Memories
Title（参考訳）: 連想記憶を用いた変圧器のファクチュアルリコール理解
Authors: Eshaan Nichani, Jason D. Lee, Alberto Bietti,
Abstract要約: 浅層変圧器は、連想記憶の組み合わせを用いて、ほぼ最適な記憶能力を得ることができることを示す。本研究では, 1層に1つの自己注意を持つ変圧器にパラメータを付加することにより, ファクトリコールタスクにおいて100%の精度が得られることを示す。
参考スコア（独自算出の注目度）: 55.93756571457904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have demonstrated an impressive ability to perform factual recall. Prior work has found that transformers trained on factual recall tasks can store information at a rate proportional to their parameter count. In our work, we show that shallow transformers can use a combination of associative memories to obtain such near optimal storage capacity. We begin by proving that the storage capacities of both linear and MLP associative memories scale linearly with parameter count. We next introduce a synthetic factual recall task, and prove that a transformer with a single layer of self-attention followed by an MLP can obtain 100% accuracy on the task whenever either the total number of self-attention parameters or MLP parameters scales (up to log factors) linearly with the number of facts. In particular, the transformer can trade off between using the value matrices or the MLP as an associative memory to store the dataset of facts. We complement these expressivity results with an analysis of the gradient flow trajectory of a simplified linear attention model trained on our factual recall task, where we show that the model exhibits sequential learning behavior.
Abstract（参考訳）: 大規模な言語モデルは、事実をリコールする素晴らしい能力を示している。以前の研究で、実際のリコールタスクで訓練されたトランスフォーマーは、パラメータ数に比例して情報を格納できることがわかった。本研究では, 浅層変圧器において, 連想記憶の組み合わせを用いて, 最適な記憶能力が得られることを示す。まず、線形記憶とMLP連想記憶の両方の記憶容量がパラメータ数と線形にスケールしていることを証明する。次に、合成事実再現タスクを導入し、事実数に応じて自己認識パラメータの総数やMLPパラメータのスケール(ログファクタまで)を線形に行うと、MLPに続く単一の自己認識層を持つ変圧器がタスク上で100%の精度が得られることを証明した。特に、トランスフォーマーは、値行列またはMLPを連想メモリとして使用して、事実のデータセットを格納する間のトレードオフを行うことができる。本研究は,本モデルが逐次学習行動を示すことを示す,現実的リコールタスクに基づいて訓練された簡易線形注意モデルの勾配流軌跡の解析により,これらの表現性の結果を補完するものである。

関連論文リスト

Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers [40.964584197528175]
LLM(Large Language Models)は、事実を保存およびリコールする能力を持つ。 LLMは、コンテキスト内の特定のトークンが事実を取得する手がかりとなる連想記憶モデルのように振る舞う。
論文参考訳（メタデータ） (2024-06-26T14:49:54Z)
Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文参考訳（メタデータ） (2023-11-14T12:37:25Z)
Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文参考訳（メタデータ） (2023-06-15T19:29:08Z)
The Closeness of In-Context Learning and Weight Shifting for Softmax Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文参考訳（メタデータ） (2023-04-26T04:33:41Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
Understanding Transformer Memorization Recall Through Idioms [42.28269674547148]
言語モデルにおける記憶されたシーケンスのリコールを探索し,特徴付けるための,最初の方法論的フレームワークを提供する。本研究では,モデル内の隠れ表現を,出力確率分布の段階的改善として解釈することにより,内部予測構築過程を解析する。本研究は,メモリリコールの理解に向けての第一歩を踏み出し,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。
論文参考訳（メタデータ） (2022-10-07T14:45:31Z)
PairConnect: A Compute-Efficient MLP Alternative to Attention [31.659580535552184]
メモリを多用するが、Transformerの計算効率は大幅に向上した。提案手法はPairConnectと呼ばれ,単語間のペアワイドな相互作用を明示的なペアワイドな単語埋め込みによってモデル化する。言語モデリング実験の結果,PairConnect は Transformer と同等の計算コストを抑えつつ,計算コストを大幅に削減できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-15T15:39:45Z)
Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文参考訳（メタデータ） (2021-05-17T17:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。