論文の概要: Associative memory inspires improvements for in-context learning using a novel attention residual stream architecture
- arxiv url: http://arxiv.org/abs/2412.15113v1
- Date: Thu, 19 Dec 2024 17:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:34:02.100600
- Title: Associative memory inspires improvements for in-context learning using a novel attention residual stream architecture
- Title(参考訳): 連想記憶は、新しい注意残ストリームアーキテクチャを用いた文脈内学習の改善を刺激する
- Authors: Thomas F Burns, Tomoki Fukai, Christopher J Earls,
- Abstract要約: 大規模言語モデル(LLM)において、文脈内学習(ICL)が可能な連想記憶モデルを導入する。
我々はこれを、情報を直接アテンションヘッド間で流れる新しい残差ストリームアーキテクチャのインスピレーションとして利用する。
我々はこのアーキテクチャを2層トランスのトレーニング中にテストし、ICLの能力は修正なしではより高速に発揮できることを示した。
- 参考スコア(独自算出の注目度): 6.144680854063938
- License:
- Abstract: Large language models (LLMs) demonstrate an impressive ability to utilise information within the context of their input sequences to appropriately respond to data unseen by the LLM during its training procedure. This ability is known as in-context learning (ICL). Humans and non-human animals demonstrate similar abilities, however their neural architectures differ substantially from LLMs. Despite this, a critical component within LLMs, the attention mechanism, resembles modern associative memory models, widely used in and influenced by the computational neuroscience community to model biological memory systems. Using this connection, we introduce an associative memory model capable of performing ICL. We use this as inspiration for a novel residual stream architecture which allows information to directly flow between attention heads. We test this architecture during training within a two-layer Transformer and show its ICL abilities manifest more quickly than without this modification. We then apply our architecture in small language models with 8 million parameters, focusing on attention head values, with results also indicating improved ICL performance at this larger and more naturalistic scale.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力シーケンスのコンテキスト内で情報を活用し、トレーニング手順中にLLMによって見つからないデータに適切に応答する能力を示す。
この能力は、ICL(In-context Learning)として知られている。
人間と非ヒトの動物は同様の能力を示すが、その神経構造はLLMと大きく異なる。
それにもかかわらず、LCM内の重要な構成要素である注意機構は現代の連想記憶モデルに似ており、生物記憶システムをモデル化するために計算神経科学のコミュニティで広く使われ、影響を受けている。
この接続を用いて、ICLの実行が可能な連想記憶モデルを導入する。
我々はこれを新しい残差ストリームアーキテクチャのインスピレーションとして利用し、アテンションヘッド間で情報を直接流れることを可能にする。
我々はこのアーキテクチャを2層トランスのトレーニング中にテストし、ICLの能力は修正なしではより高速に発揮できることを示した。
次に、800万のパラメータを持つ小さな言語モデルにアーキテクチャを適用し、注意頭値に着目し、その結果、この大規模でより自然主義的なスケールでのICL性能の改善も示している。
関連論文リスト
- Long Term Memory: The Foundation of AI Self-Evolution [48.52678410533424]
GPTのような大規模な言語モデル(LLM)は、膨大なデータセットに基づいてトレーニングされており、言語理解、推論、計画において印象的な能力を示している。
ほとんどの研究は、より強力な基盤モデルを構築するために、より大規模なデータセットをトレーニングすることで、これらのモデルを強化することに重点を置いている。
大規模なトレーニングとは異なり、推論中にモデルを進化させることは、AIの自己進化(self-evolution)と呼ばれるプロセスと同等に重要である。
論文 参考訳(メタデータ) (2024-10-21T06:09:30Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Learning Associative Inference Using Fast Weight Memory [12.239487954915646]
FWM(Fast Weight Memory)と呼ばれる連想メモリによるLSTMモデルの拡張
我々のモデルは勾配降下法によりエンドツーエンドに訓練され、合成言語推論問題において優れた性能が得られる。
論文 参考訳(メタデータ) (2020-11-16T10:01:23Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。