論文の概要: Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.09874v1
- Date: Wed, 13 Aug 2025 15:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.940629
- Title: Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models
- Title(参考訳): メモリデコーダ:大規模言語モデルのための事前訓練されたプラグイン・アンド・プレイメモリ
- Authors: Jiaqi Cao, Jiarui Wang, Rubin Wei, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin,
- Abstract要約: 本稿では,プリトレーニング済みメモリであるメモリデコーダを紹介する。このメモリデコーダは,元のモデルのパラメータを変更することなく,効率的なドメイン適応を実現する。
実験により、メモリデコーダは、様々なQwenモデルとLlamaモデルを3つの専門分野(バイオメディシン、ファイナンス、法)に効果的に適応し、平均6.17ポイントのパープレキシティを低減できることが示された。
- 参考スコア(独自算出の注目度): 32.995926855206505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong abilities in general language tasks, yet adapting them to specific domains remains a challenge. Current method like Domain Adaptive Pretraining (DAPT) requires costly full-parameter training and suffers from catastrophic forgetting. Meanwhile, Retrieval-Augmented Generation (RAG) introduces substantial inference latency due to expensive nearest-neighbor searches and longer context. This paper introduces Memory Decoder, a plug-and-play pretrained memory that enables efficient domain adaptation without changing the original model's parameters. Memory Decoder employs a small transformer decoder that learns to imitate the behavior of an external non-parametric retriever. Once trained, Memory Decoder can be seamlessly integrated with any pretrained language model that shares the same tokenizer, requiring no model-specific modifications. Experimental results demonstrate that Memory Decoder enables effective adaptation of various Qwen and Llama models to three distinct specialized domains: biomedicine, finance, and law, reducing perplexity by an average of 6.17 points. Overall, Memory Decoder introduces a novel paradigm centered on a specially pretrained memory component designed for domain-specific adaptation. This memory architecture can be integrated in a plug-and-play manner, consistently enhancing performance across multiple models within the target domain.
- Abstract(参考訳): 大きな言語モデル(LLM)は、一般的な言語タスクにおいて強力な能力を示しているが、特定のドメインに適応することは依然として課題である。
ドメイン適応事前訓練(DAPT)のような現在の手法では、コストのかかるフルパラメータトレーニングが必要で、破滅的な忘れ込みに悩まされる。
一方、Retrieval-Augmented Generation (RAG) は、高価な近接検索と長いコンテキストのため、かなりの推論遅延をもたらす。
本稿では,プリトレーニング済みメモリであるメモリデコーダを紹介する。このメモリデコーダは,元のモデルのパラメータを変更することなく,効率的なドメイン適応を実現する。
メモリデコーダは、外部の非パラメトリックレトリバーの動作を模倣することを学ぶ小さなトランスフォーマーデコーダを使用する。
一度トレーニングされると、Memory Decoderは、同じトークン化子を共有する事前訓練済みの言語モデルとシームレスに統合され、モデル固有の変更は不要になる。
実験により、メモリデコーダは、様々なQwenモデルとLlamaモデルを3つの専門分野(バイオメディシン、ファイナンス、法)に効果的に適応し、平均6.17ポイントのパープレキシティを低減できることが示された。
全体として、Memory Decoderはドメイン固有の適応のために設計された、特別に事前訓練されたメモリコンポーネントを中心とした新しいパラダイムを導入している。
このメモリアーキテクチャは、プラグイン・アンド・プレイ方式で統合することができ、ターゲットドメイン内の複数のモデルにまたがるパフォーマンスを一貫して向上させる。
関連論文リスト
- MLP Memory: Language Modeling with Retriever-pretrained External Memory [26.033369983243624]
そこで本研究では,事前学習可能な外部メモリを用いてデコーダから切り離すことを提案する。
私たちのアーキテクチャは、下流のタスクに強い難易度とパフォーマンスを示します。
3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-03T16:40:53Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - $DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device
Multi-Domain Learning [30.53018068935323]
アクティベーションストレージに使用される大きなメモリは、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックである。
本稿では,メモリ効率の高いマルチドメイン学習手法であるDeep Additive Attention Adaptionを提案する。
我々は、複数のデータセットに対して、最先端の手法に対して$DA3$を検証し、精度とトレーニング時間の両方において良好な改善を示す。
論文 参考訳(メタデータ) (2020-12-02T18:03:18Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。