論文の概要: MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models
- arxiv url: http://arxiv.org/abs/2601.22887v1
- Date: Fri, 30 Jan 2026 12:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.424884
- Title: MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models
- Title(参考訳): MoVE: 価値埋め込みの混合 - 自己回帰モデルにおけるパラメトリックメモリのスケーリングのための新しい軸
- Authors: Yangyan Li,
- Abstract要約: 我々は,モデルキャパシティの剛性構造結合を計算コストに分解するメカニズムである$textbfMoVE (Mixture of Value Embeddings)$を紹介した。
MoVEは、すべての注目層間で共有される学習可能な値埋め込みのグローバルバンクを導入することで、メモリを計算から切り離す。
自動回帰モデリングの2つの代表的応用であるテキスト生成と画像生成に関する厳密に制御された実験を通してMoVEを検証する。
- 参考スコア(独自算出の注目度): 0.9222161299777548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive sequence modeling stands as the cornerstone of modern Generative AI, powering results across diverse modalities ranging from text generation to image generation. However, a fundamental limitation of this paradigm is the rigid structural coupling of model capacity to computational cost: expanding a model's parametric memory -- its repository of factual knowledge or visual patterns -- traditionally requires deepening or widening the network, which incurs a proportional rise in active FLOPs. In this work, we introduce $\textbf{MoVE (Mixture of Value Embeddings)}$, a mechanism that breaks this coupling and establishes a new axis for scaling capacity. MoVE decouples memory from compute by introducing a global bank of learnable value embeddings shared across all attention layers. For every step in the sequence, the model employs a differentiable soft gating mechanism to dynamically mix retrieved concepts from this bank into the standard value projection. This architecture allows parametric memory to be scaled independently of network depth by simply increasing the number of embedding slots. We validate MoVE through strictly controlled experiments on two representative applications of autoregressive modeling: Text Generation and Image Generation. In both domains, MoVE yields consistent performance improvements over standard and layer-wise memory baselines, enabling the construction of "memory-dense" models that achieve lower perplexity and higher fidelity than their dense counterparts at comparable compute budgets.
- Abstract(参考訳): 自己回帰シーケンスモデリングは、テキスト生成から画像生成に至るまで、さまざまなモダリティにまたがって結果をパワーアップする、現代のジェネレーティブAIの基盤となっている。
しかしながら、このパラダイムの基本的な制限は、モデルキャパシティと計算コストの厳密な構造的結合である。 モデルのパラメトリックメモリ(事実知識や視覚パターンのリポジトリ)を拡張するには、伝統的にネットワークの深化や拡大が必要であり、これはアクティブなFLOPの比例的な増加を引き起こします。
本稿では、この結合を破り、キャパシティをスケーリングするための新しい軸を確立するメカニズムである$\textbf{MoVE (Mixture of Value Embeddings)$を紹介します。
MoVEは、すべての注目層間で共有される学習可能な値埋め込みのグローバルバンクを導入することで、メモリを計算から切り離す。
シーケンスの各ステップにおいて、このモデルは、このバンクから取得した概念を標準値投影に動的に混合するために、微分可能なソフトゲーティング機構を使用する。
このアーキテクチャにより、埋め込みスロットの数を増やすだけで、パラメトリックメモリをネットワーク深度とは独立してスケールすることができる。
自動回帰モデリングの2つの代表的応用であるテキスト生成と画像生成に関する厳密に制御された実験を通してMoVEを検証する。
両方のドメインにおいて、MoVEは標準メモリベースラインとレイヤメモリベースラインに対して一貫したパフォーマンス向上を実現し、同等の計算予算で高密度のメモリ密度モデルを構築することができる。
関連論文リスト
- Theoretical Foundations of Scaling Law in Familial Models [46.506708373314375]
モデルサイズ(N)とトレーニングトークン(D)とともに、基本的なスケーリング変数としてグラニュラリティ(G)を導入します。
この結果から, 極小指数の乗法則に準じる粒度ペナルティが明らかとなった。
のパラダイムを検証することで、デプロイメントの柔軟性が達成可能であることを実証しています。
論文 参考訳(メタデータ) (2025-12-29T12:01:58Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Universal Hopfield Networks: A General Framework for Single-Shot
Associative Memory Models [41.58529335439799]
本稿では,メモリネットワークの動作を3つの操作のシーケンスとして理解するための一般的なフレームワークを提案する。
これらのメモリモデルはすべて、類似性と分離関数が異なる一般的なフレームワークのインスタンスとして導出します。
論文 参考訳(メタデータ) (2022-02-09T16:48:06Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。