論文の概要: MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers
- arxiv url: http://arxiv.org/abs/2602.00398v1
- Date: Fri, 30 Jan 2026 23:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.159686
- Title: MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers
- Title(参考訳): MemoryLLM: トランスフォーマーのためのPlug-n-Playの解釈可能なフィードフォワードメモリ
- Authors: Ajay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Arnav Kundu, Mehrdad Farajtabar, Minsik Cho,
- Abstract要約: MemoryLLMは、フィードフォワードモジュールを自己アテンションから切り離すことを目的としている。
トークンの埋め込みを使って、自己注意から独立してトレーニングする。
システムは、文脈のないトークン単位の埋め込みでFFNをトレーニングすることによるパフォーマンスギャップを橋渡しする。
- 参考スコア(独自算出の注目度): 22.540490024630316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how transformer components operate in LLMs is important, as it is at the core of recent technological advances in artificial intelligence. In this work, we revisit the challenges associated with interpretability of feed-forward modules (FFNs) and propose MemoryLLM, which aims to decouple FFNs from self-attention and enables us to study the decoupled FFNs as context-free token-wise neural retrieval memory. In detail, we investigate how input tokens access memory locations within FFN parameters and the importance of FFN memory across different downstream tasks. MemoryLLM achieves context-free FFNs by training them in isolation from self-attention directly using the token embeddings. This approach allows FFNs to be pre-computed as token-wise lookups (ToLs), enabling on-demand transfer between VRAM and storage, additionally enhancing inference efficiency. We also introduce Flex-MemoryLLM, positioning it between a conventional transformer design and MemoryLLM. This architecture bridges the performance gap caused by training FFNs with context-free token-wise embeddings.
- Abstract(参考訳): LLMにおけるトランスフォーマーコンポーネントの動作を理解することは、人工知能の最近の技術進歩の中核にあるため重要である。
本研究では、フィードフォワードモジュール(FFN)の解釈可能性に関わる課題を再考し、FFNを自己認識から切り離すことを目的としたMemoryLLMを提案する。
本稿では、入力トークンがFFNパラメータ内のメモリ位置にアクセスする方法と、異なる下流タスクにおけるFFNメモリの重要性について検討する。
MemoryLLMは、トークン埋め込みを直接使用して、自己アテンションから独立してトレーニングすることで、文脈のないFFNを実現する。
このアプローチにより、FFNはトークンワイドルックアップ(ToL)として事前計算され、VRAMとストレージ間のオンデマンド転送が可能となり、推論効率が向上する。
また、Flex-MemoryLLMを導入し、従来のトランスフォーマー設計とMemoryLLMの中間に位置する。
このアーキテクチャは、コンテキストフリーなトークン単位の埋め込みによるFFNのトレーニングによって生じるパフォーマンスギャップを橋渡しする。
関連論文リスト
- Flash Multi-Head Feed-Forward Network [51.82159978122374]
マルチヘッドFFN(MH-FFN)は、単一ヘッドアテンションとFFNの構造的類似性によって動機付けられる。
MH-FFNは、ヘッドカウントによるメモリ消費のスケーリングと、中間サイズと固定ヘッド次元の間の不均衡比の2つの課題に直面している。
我々はFlash Multi-Head FFN (FlashMHF) を提案し、I/O対応の核計算出力はFlashAttentionと同様のオンライン出力であり、動的に重み付けされた並列サブネットワークを用いた設計である。
論文 参考訳(メタデータ) (2025-12-07T20:50:20Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices [3.739419555718102]
トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
論文 参考訳(メタデータ) (2025-03-28T07:26:37Z) - FFNet: MetaMixer-based Efficient Convolutional Mixer Design [6.8410780175245165]
我々は、Fast-Forward Networks (FFNet) のファミリーを提示する。
FFNetは単純な演算子のみで構成されているにもかかわらず、各ドメインにおいて洗練された、高度に専門化されたメソッドよりも優れている。
本稿では,クエリキー値フレームワーク内でのサブオペレーションを規定しない一般的なミキサーアーキテクチャであるMetaMixerを提案する。
論文 参考訳(メタデータ) (2024-06-04T07:00:14Z) - LookupFFN: Making Transformers Compute-lite for CPU inference [23.61144705380663]
GPUクラスタは現在、大規模なディープニューラルネットワーク(DNN)モデルをトレーニングするための事実上の選択肢です。
ワークフローの容易さ、セキュリティ、コストなど、いくつかの理由から、CPUが業界の多くの分野において、定期的な使用における推論に有効かどうかの調査が進められている。
本稿では,GEMMをベースとしたFeed Forward Networks (FFNs) という,現代的なアーキテクチャにおけるワークホースであるモジュールについて検討し,計算的(FLOP-)な表現の程度を評価する。
論文 参考訳(メタデータ) (2024-03-12T00:26:16Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。