論文の概要: MemDLM: Memory-Enhanced DLM Training
- arxiv url: http://arxiv.org/abs/2603.22241v1
- Date: Mon, 23 Mar 2026 17:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.819206
- Title: MemDLM: Memory-Enhanced DLM Training
- Title(参考訳): MemDLM: メモリ強化DLMトレーニング
- Authors: Zehua Pei, Hui-Ling Zhen, Weizhe Lin, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu,
- Abstract要約: Diffusion Language Models (DLM)は、Auto-Regressive (AR)モデルよりも優れた利点を提供する。
彼らは列車の干渉ミスマッチに悩まされている。
本稿では,模擬復調処理をトレーニングに組み込んだメモリ拡張DLMを提案する。
- 参考スコア(独自算出の注目度): 56.40248490616793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Language Models (DLMs) offer attractive advantages over Auto-Regressive (AR) models, such as full-attention parallel decoding and flexible generation. However, they suffer from a notable train-inference mismatch: DLMs are trained with a static, single-step masked prediction objective, but deployed through a multi-step progressive denoising trajectory. We propose MemDLM (Memory-Enhanced DLM), which narrows this gap by embedding a simulated denoising process into training via Bi-level Optimization. An inner loop updates a set of fast weights, forming a Parametric Memory that captures the local trajectory experience of each sample, while an outer loop updates the base model conditioned on this memory. By offloading memorization pressure from token representations to parameters, MemDLM yields faster convergence and lower training loss. Moreover, the inner loop can be re-enabled at inference time as an adaptation step, yielding additional gains on long-context understanding. We find that, when activated at inference time, this Parametric Memory acts as an emergent in-weight retrieval mechanism, helping MemDLM further reduce token-level attention bottlenecks on challenging Needle-in-a-Haystack retrieval tasks. Code: https://github.com/JarvisPei/MemDLM.
- Abstract(参考訳): Diffusion Language Models (DLMs) は、フルアテンション並列デコーディングやフレキシブルジェネレーションなど、自動回帰(AR)モデルよりも優れたアドバンテージを提供する。
DLMは静的な1ステップのマスク付き予測目標で訓練されるが、多段階の進行性認知軌道を通じて展開される。
そこで我々は,このギャップを狭めるために,模擬復調処理をBiレベル最適化によるトレーニングに組み込むことにより,MemDLM(Memory-Enhanced DLM)を提案する。
内部ループは一連の高速ウェイトを更新し、各サンプルの局所的な軌跡体験をキャプチャするパラメトリックメモリを形成し、外側ループはこのメモリ上で条件付けられたベースモデルを更新する。
トークン表現からパラメータへの記憶圧力をオフロードすることで、MemDLMはより高速な収束とトレーニング損失の低減をもたらす。
さらに、インナーループを適応ステップとして推論時に再有効にすることができ、長文理解においてさらなる利得が得られる。
推論時に起動すると、このパラメトリックメモリは創発的なインウェイト検索機構として機能し、MemDLMがNeeddle-in-a-Haystack検索タスクに挑戦するトークンレベルの注意ボトルネックをさらに軽減するのに役立つ。
コード:https://github.com/JarvisPei/MemDLM。
関連論文リスト
- MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - MetaState: Persistent Working Memory for Discrete Diffusion Language Models [13.775010785119761]
textbfMetaStateは、凍結したdLLMバックボーンに永続的で固定サイズのワーキングメモリを装備する軽量なリカレント拡張である。
LLaDA-8BとDream-7Bでは、textbfMetaStateは、バックボーンの凍結を保ちながら、無視可能なトレーニング可能なパラメータを導入し、凍結ベースラインよりも一貫して精度を向上させる。
論文 参考訳(メタデータ) (2026-03-02T00:16:35Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - DAF: An Efficient End-to-End Dynamic Activation Framework for on-Device DNN Training [41.09085549544767]
システムレベルの最適化を通じて、スケーラブルで効率的なデバイス上でのトレーニングを可能にする動的アクティベーションフレームワーク(DAF)を導入する。
DAFは、主要なシステムのボトルネックに対処することで、メモリと時間効率の動的量子化トレーニングを実現する。
組み込みプラットフォームとモバイルプラットフォームにわたるさまざまなディープラーニングモデルの評価によると、メモリ使用量の削減に22.9倍、スピードアップに32倍の3.2倍となる。
論文 参考訳(メタデータ) (2025-07-09T08:59:30Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。