論文の概要: MLP Memory: Language Modeling with Retriever-pretrained External Memory
- arxiv url: http://arxiv.org/abs/2508.01832v1
- Date: Sun, 03 Aug 2025 16:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.076425
- Title: MLP Memory: Language Modeling with Retriever-pretrained External Memory
- Title(参考訳): MLPメモリ:Retriever-pretrained external Memoryを用いた言語モデリング
- Authors: Rubin Wei, Jiaqi Cao, Jiarui Wang, Jushi Kai, Qipeng Guo, Bowen Zhou, Zhouhan Lin,
- Abstract要約: そこで本研究では,事前学習可能な外部メモリを用いてデコーダから切り離すことを提案する。
私たちのアーキテクチャは、下流のタスクに強い難易度とパフォーマンスを示します。
3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 26.033369983243624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern decoder-only LLMs achieve superior performance across various domains, hallucinations have risen to be a common problem in their generated text, hindering their application in knowledge-intensive tasks. Retriever-augmented generation (RAG) offers a solution, but the non-parametric nature of the retriever hinders its deep interaction with LLM. In this work, we propose to decouple memorization from the LLM decoder using a pretrained, differentiable external memory. The external memory is an MLP pretrained by imitating the behavior of a retriever on the entire pretraining dataset. Our resulting architecture, which comprises a transformer decoder and an external MLP memory pretrained on language modeling and retriever imitation respectively, demonstrates strong perplexity and performance on downstream tasks. Experiments show our architecture exhibits steeper power-law scaling with model size, achieving 17.5% and 24.1% improvement on WikiText-103 and Web datasets compared to decoder-only models while benefiting from added training without overfitting. We demonstrate superior performance on three hallucination benchmarks and nine memory-intensive tasks. Additionally, our approach delivers $80\times$ speedup over $k$NN-LM (500M tokens) and $1.3\times$ faster inference than decoder-only models. Unlike $k$NN-LM, which impairs reasoning, our MLP memory improves StrategyQA performance. We will open-source our code and models in the future.
- Abstract(参考訳): 現代のデコーダのみのLLMは様々な領域で優れた性能を発揮するが、幻覚は生成したテキストに共通する問題となり、知識集約的なタスクへの応用を妨げるようになった。
Retriever-augmented Generation (RAG) は解を提供するが、レトリバーの非パラメトリックな性質はLLMとの深い相互作用を妨げる。
本研究では,事前学習可能な外部メモリを用いて,LLMデコーダからメモリを分離する手法を提案する。
外部メモリは、事前トレーニングデータセット全体のレトリバーの動作を模倣して事前トレーニングされたMLPである。
その結果,トランスデコーダと,言語モデリングとレシーバ模倣を事前訓練した外部MLPメモリから構成されるアーキテクチャが,下流タスクにおいて高いパープレキシティと性能を示すことがわかった。
実験の結果、アーキテクチャはモデルサイズで、デコーダのみのモデルと比較して、WikiText-103とWebデータセットで17.5%と24.1%の改善を実現し、過度に適合しない追加トレーニングの恩恵を受けている。
3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。
さらに、我々のアプローチでは、$80\times$で$k$NN-LM(500Mトークン)を超過し、1.3\times$でデコーダのみのモデルよりも高速な推論を提供する。
推論を損なう$k$NN-LMとは異なり、MLPメモリはStrategyQAのパフォーマンスを改善する。
将来、コードとモデルをオープンソースにします。
関連論文リスト
- Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。
2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。
高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-01T17:45:48Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。