Fugu-MT 論文翻訳(概要): Associative memory inspires improvements for in-context learning using a novel attention residual stream architecture

論文の概要: Associative memory inspires improvements for in-context learning using a novel attention residual stream architecture

arxiv url: http://arxiv.org/abs/2412.15113v1
Date: Thu, 19 Dec 2024 17:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.238228
Title: Associative memory inspires improvements for in-context learning using a novel attention residual stream architecture
Title（参考訳）: 連想記憶は、新しい注意残ストリームアーキテクチャを用いた文脈内学習の改善を刺激する
Authors: Thomas F Burns, Tomoki Fukai, Christopher J Earls,
Abstract要約: 大規模言語モデル(LLM)において、文脈内学習(ICL)が可能な連想記憶モデルを導入する。我々はこれを、情報を直接アテンションヘッド間で流れる新しい残差ストリームアーキテクチャのインスピレーションとして利用する。我々はこのアーキテクチャを2層トランスのトレーニング中にテストし、ICLの能力は修正なしではより高速に発揮できることを示した。
参考スコア（独自算出の注目度）: 6.144680854063938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) demonstrate an impressive ability to utilise information within the context of their input sequences to appropriately respond to data unseen by the LLM during its training procedure. This ability is known as in-context learning (ICL). Humans and non-human animals demonstrate similar abilities, however their neural architectures differ substantially from LLMs. Despite this, a critical component within LLMs, the attention mechanism, resembles modern associative memory models, widely used in and influenced by the computational neuroscience community to model biological memory systems. Using this connection, we introduce an associative memory model capable of performing ICL. We use this as inspiration for a novel residual stream architecture which allows information to directly flow between attention heads. We test this architecture during training within a two-layer Transformer and show its ICL abilities manifest more quickly than without this modification. We then apply our architecture in small language models with 8 million parameters, focusing on attention head values, with results also indicating improved ICL performance at this larger and more naturalistic scale.
Abstract（参考訳）: 大規模言語モデル(LLM)は、入力シーケンスのコンテキスト内で情報を活用し、トレーニング手順中にLLMによって見つからないデータに適切に応答する能力を示す。この能力は、ICL(In-context Learning)として知られている。人間と非ヒトの動物は同様の能力を示すが、その神経構造はLLMと大きく異なる。それにもかかわらず、LCM内の重要な構成要素である注意機構は現代の連想記憶モデルに似ており、生物記憶システムをモデル化するために計算神経科学のコミュニティで広く使われ、影響を受けている。この接続を用いて、ICLの実行が可能な連想記憶モデルを導入する。我々はこれを新しい残差ストリームアーキテクチャのインスピレーションとして利用し、アテンションヘッド間で情報を直接流れることを可能にする。我々はこのアーキテクチャを2層トランスのトレーニング中にテストし、ICLの能力は修正なしではより高速に発揮できることを示した。次に、800万のパラメータを持つ小さな言語モデルにアーキテクチャを適用し、注意頭値に着目し、その結果、この大規模でより自然主義的なスケールでのICL性能の改善も示している。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Hebbian Memory-Augmented Recurrent Networks: Engram Neurons in Deep Learning [0.0]
本稿では,ヘビアン可塑性とスパース・アテンション駆動型検索機構を備えた,明示的で微分可能なメモリ行列を組み込んだ新しい再帰型アーキテクチャであるEngram Neural Network(ENN)を紹介する。 ENNは、動的ヘビアントレースによるメモリ生成とリコールを明示的にモデル化し、従来のRNNモデルと比較して透明性と解釈性を改善した。
論文参考訳（メタデータ） (2025-07-29T03:34:32Z)
Retrospective Memory for Camouflaged Object Detection [18.604039107883317]
本稿では,カモフラージュパターンの認識と推論を動的に調節するリコール拡張CODアーキテクチャであるRetroMemを提案する。本稿では,リコール段階で動的メモリ機構と推論パターン再構成を提案する。私たちのRetroMemは、既存の最先端メソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-06-18T08:22:19Z)
Long Term Memory: The Foundation of AI Self-Evolution [48.52678410533424]
GPTのような大規模な言語モデル(LLM)は、膨大なデータセットに基づいてトレーニングされており、言語理解、推論、計画において印象的な能力を示している。ほとんどの研究は、より強力な基盤モデルを構築するために、より大規模なデータセットをトレーニングすることで、これらのモデルを強化することに重点を置いている。大規模なトレーニングとは異なり、推論中にモデルを進化させることは、AIの自己進化(self-evolution)と呼ばれるプロセスと同等に重要である。
論文参考訳（メタデータ） (2024-10-21T06:09:30Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
CAMELoT: Towards Large Language Models with Training-Free Consolidated Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。 CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T01:00:17Z)
Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文参考訳（メタデータ） (2024-01-31T08:48:35Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
CogNGen: Constructing the Kernel of a Hyperdimensional Predictive Processing Cognitive Architecture [79.07468367923619]
神経生物学的に妥当な2つの計算モデルを組み合わせた新しい認知アーキテクチャを提案する。我々は、現代の機械学習技術の力を持つ認知アーキテクチャを開発することを目指している。
論文参考訳（メタデータ） (2022-03-31T04:44:28Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Learning Associative Inference Using Fast Weight Memory [12.239487954915646]
FWM(Fast Weight Memory)と呼ばれる連想メモリによるLSTMモデルの拡張我々のモデルは勾配降下法によりエンドツーエンドに訓練され、合成言語推論問題において優れた性能が得られる。
論文参考訳（メタデータ） (2020-11-16T10:01:23Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。