論文の概要: MIDUS: Memory-Infused Depth Up-Scaling
- arxiv url: http://arxiv.org/abs/2512.13751v1
- Date: Mon, 15 Dec 2025 05:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.426724
- Title: MIDUS: Memory-Infused Depth Up-Scaling
- Title(参考訳): MIDUS:メモリ注入深度アップスケーリング
- Authors: Taero Kim, Hoyoon Byun, Youngjun Choi, Sungrae Park, Kyungwoo Song,
- Abstract要約: Depth Up-Scaling (DUS) はレイヤの複製と連続事前訓練 (CPT) の適用によって有望な戦略として登場した。
MIDUS(Memory-Infused Depth Up-Scaling)を導入し、重複ブロック中のFFNをヘッドワイズメモリ層に置き換える。
以上の結果から,MIDUSは,深度アップスケーリングのための従来のFFN複製に代わる,説得力があり,資源効率のよい代替手段であると考えられた。
- 参考スコア(独自算出の注目度): 20.802982614533615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling large language models (LLMs) demands approaches that increase capacity without incurring excessive parameter growth or inference cost. Depth Up-Scaling (DUS) has emerged as a promising strategy by duplicating layers and applying Continual Pre-training (CPT), but its reliance on feed-forward networks (FFNs) limits efficiency and attainable gains. We introduce Memory-Infused Depth Up-Scaling (MIDUS), which replaces FFNs in duplicated blocks with a head-wise memory (HML) layer. Motivated by observations that attention heads have distinct roles both across and within layers, MIDUS assigns an independent memory bank to each head, enabling head-wise retrieval and injecting information into subsequent layers while preserving head-wise functional structure. This design combines sparse memory access with head-wise representations and incorporates an efficient per-head value factorization module, thereby relaxing the usual efficiency-performance trade-off. Across our CPT experiments, MIDUS exhibits robust performance improvements over strong DUS baselines while maintaining a highly efficient parameter footprint. Our findings establish MIDUS as a compelling and resource-efficient alternative to conventional FFN replication for depth up-scaling by leveraging its head-wise memory design.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは、過剰なパラメータ成長や推論コストを招くことなく、キャパシティを増大させるアプローチを要求する。
Depth Up-Scaling (DUS) はレイヤの複製と継続事前トレーニング (CPT) の適用によって有望な戦略として浮上しているが、フィードフォワードネットワーク (FFN) への依存は効率と達成可能な利得を制限している。
MIDUS(Memory-Infused Depth Up-Scaling)を導入し,重複ブロック中のFFNをHML(Head-wise memory)層に置き換える。
MIDUSは、アテンションヘッドが層間と層内の両方で異なる役割を担っているという観察によって動機付けられ、各ヘッドに独立したメモリバンクを割り当て、ヘッドワイド検索と後続のレイヤへの情報注入を可能にし、ヘッドワイド機能構造を保存する。
この設計では、スパースメモリアクセスとヘッドワイド表現を結合し、効率の良いヘッド単位の値分解モジュールを組み込むことで、通常の効率と性能のトレードオフを緩和する。
CPT実験全体を通して、MIDUSは、高効率なパラメータフットプリントを維持しながら、強力なDUSベースラインよりも堅牢なパフォーマンス向上を実現しています。
本研究は,MIDUSのメモリ設計を活かして,深度アップスケーリングのための従来のFFNレプリケーションに代わる,説得力のある,資源効率の高い代替手段として確立した。
関連論文リスト
- Flash Multi-Head Feed-Forward Network [51.82159978122374]
マルチヘッドFFN(MH-FFN)は、単一ヘッドアテンションとFFNの構造的類似性によって動機付けられる。
MH-FFNは、ヘッドカウントによるメモリ消費のスケーリングと、中間サイズと固定ヘッド次元の間の不均衡比の2つの課題に直面している。
我々はFlash Multi-Head FFN (FlashMHF) を提案し、I/O対応の核計算出力はFlashAttentionと同様のオンライン出力であり、動的に重み付けされた並列サブネットワークを用いた設計である。
論文 参考訳(メタデータ) (2025-12-07T20:50:20Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-10T12:16:16Z) - Dynamic Memory-enhanced Transformer for Hyperspectral Image Classification [3.5093938502961763]
ハイパースペクトル画像(HSI)分類は、複雑な空間スペクトル相関のため、依然として困難な課題である。
既存のトランスモデルは、長距離依存を捉えるのに優れているが、情報冗長性と注意力の非効率さに悩まされることが多い。
MemFormerは、動的メモリモジュールを反復的に洗練するメモリ強化型マルチヘッドアテンションメカニズムを導入している。
動的メモリ富化戦略は、複雑な空間的およびスペクトル的依存関係を段階的にキャプチャし、より表現力のある特徴表現をもたらす。
論文 参考訳(メタデータ) (2025-04-17T17:43:34Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Contractive error feedback for gradient compression [60.05809370598166]
本稿では,ConEF(Contractive error feedback)と呼ばれる通信効率のよい手法を提案する。
メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFはコンバージェンスとメモリ使用率のスイートスポットを取得する。
我々は、画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証する。
論文 参考訳(メタデータ) (2023-12-13T21:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。