Fugu-MT 論文翻訳(概要): MLP Memory: Language Modeling with Retriever-pretrained External Memory

論文の概要: MLP Memory: Language Modeling with Retriever-pretrained External Memory

arxiv url: http://arxiv.org/abs/2508.01832v1
Date: Sun, 03 Aug 2025 16:40:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:22.076425
Title: MLP Memory: Language Modeling with Retriever-pretrained External Memory
Title（参考訳）: MLPメモリ:Retriever-pretrained external Memoryを用いた言語モデリング
Authors: Rubin Wei, Jiaqi Cao, Jiarui Wang, Jushi Kai, Qipeng Guo, Bowen Zhou, Zhouhan Lin,
Abstract要約: そこで本研究では,事前学習可能な外部メモリを用いてデコーダから切り離すことを提案する。私たちのアーキテクチャは、下流のタスクに強い難易度とパフォーマンスを示します。 3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。
参考スコア（独自算出の注目度）: 26.033369983243624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While modern decoder-only LLMs achieve superior performance across various domains, hallucinations have risen to be a common problem in their generated text, hindering their application in knowledge-intensive tasks. Retriever-augmented generation (RAG) offers a solution, but the non-parametric nature of the retriever hinders its deep interaction with LLM. In this work, we propose to decouple memorization from the LLM decoder using a pretrained, differentiable external memory. The external memory is an MLP pretrained by imitating the behavior of a retriever on the entire pretraining dataset. Our resulting architecture, which comprises a transformer decoder and an external MLP memory pretrained on language modeling and retriever imitation respectively, demonstrates strong perplexity and performance on downstream tasks. Experiments show our architecture exhibits steeper power-law scaling with model size, achieving 17.5% and 24.1% improvement on WikiText-103 and Web datasets compared to decoder-only models while benefiting from added training without overfitting. We demonstrate superior performance on three hallucination benchmarks and nine memory-intensive tasks. Additionally, our approach delivers $80\times$ speedup over $k$NN-LM (500M tokens) and $1.3\times$ faster inference than decoder-only models. Unlike $k$NN-LM, which impairs reasoning, our MLP memory improves StrategyQA performance. We will open-source our code and models in the future.
Abstract（参考訳）: 現代のデコーダのみのLLMは様々な領域で優れた性能を発揮するが、幻覚は生成したテキストに共通する問題となり、知識集約的なタスクへの応用を妨げるようになった。 Retriever-augmented Generation (RAG) は解を提供するが、レトリバーの非パラメトリックな性質はLLMとの深い相互作用を妨げる。本研究では,事前学習可能な外部メモリを用いて,LLMデコーダからメモリを分離する手法を提案する。外部メモリは、事前トレーニングデータセット全体のレトリバーの動作を模倣して事前トレーニングされたMLPである。その結果,トランスデコーダと,言語モデリングとレシーバ模倣を事前訓練した外部MLPメモリから構成されるアーキテクチャが,下流タスクにおいて高いパープレキシティと性能を示すことがわかった。実験の結果、アーキテクチャはモデルサイズで、デコーダのみのモデルと比較して、WikiText-103とWebデータセットで17.5%と24.1%の改善を実現し、過度に適合しない追加トレーニングの恩恵を受けている。 3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。さらに、我々のアプローチでは、$80\times$で$k$NN-LM(500Mトークン)を超過し、1.3\times$でデコーダのみのモデルよりも高速な推論を提供する。推論を損なう$k$NN-LMとは異なり、MLPメモリはStrategyQAのパフォーマンスを改善する。将来、コードとモデルをオープンソースにします。

関連論文リスト

Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。 2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文参考訳（メタデータ） (2025-07-01T17:45:48Z)
DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers [86.54316283425001]
大規模言語モデル(LLM)は、高密度レトリバーとして微調整されている間、強い有効性と堅牢性を示している。 LLMは効率が良いが、教師付き微調整データで効率的に一般化できないことが多い。我々は、LLMを活用してより小さな一般化可能な高密度レトリバーを訓練するトレーニングフレームワークであるDRAMAを紹介する。
論文参考訳（メタデータ） (2025-02-25T18:59:07Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。 MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
$\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-01T11:07:23Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。