論文の概要: Graph Memory Transformer (GMT)
- arxiv url: http://arxiv.org/abs/2604.23862v1
- Date: Sun, 26 Apr 2026 20:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.600442
- Title: Graph Memory Transformer (GMT)
- Title(参考訳): Graph Memory Transformer (GMT)
- Authors: Nicola Zanarini, Niccolò Ferrari,
- Abstract要約: Graph Memory Transformer (GMT)は、学習された有向遷移行列で接続されたセントロイドのバンク上にトークン表現をルーティングする。
ベースv7モデルは安定してトレーニングし、セントロイドの使用、遷移構造、ソース・ツー・ターゲット運動を公開する。
結果は最先端のクレームではなく、グラフ経由のメモリナビゲーションで高密度なイントラトーケン変換を置き換えることの可視性と構造的解釈性をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory graph while preserving the surrounding autoregressive architecture. The proposed Graph Memory Transformer (GMT) keeps causal self-attention intact, but replaces the usual per-token FFN transformation with a memory cell that routes token representations over a learned bank of centroids connected by a learned directed transition matrix. In the base GMT v7 instantiation studied here, each of 16 transformer blocks contains 128 centroids, a 128 * 128 edge matrix, gravitational source routing, token-conditioned target selection, and a gated displacement readout. The cell therefore returns movement from an estimated source memory state toward a target memory state, rather than a retrieved value. The resulting model is a fully decoder-only language model with 82.2M trainable parameters and no dense FFN sublayers, compared with a 103.0M-parameter dense GPT-style baseline used in the evaluation. The base v7 model trains stably and exposes centroid usage, transition structure, and source-to-target movement as directly inspectable quantities of the forward computation. It remains behind the larger dense baseline in validation loss and perplexity (3.5995/36.58 vs. 3.2903/26.85), while showing close zero-shot benchmark behavior under the evaluated setting. These results are not intended as a state-of-the-art claim; they support the viability and structural interpretability of replacing dense within-token transformation with graph-mediated memory navigation. Broader scaling, optimized kernels, and more extensive benchmark evaluation are left for subsequent work.
- Abstract(参考訳): 本稿では,デコーダのみのトランスにおけるFeed-Forward Network (FFN) サブレイヤが,周囲の自己回帰的アーキテクチャを保ちながら,明示的な学習メモリグラフに置き換えられるかどうかを検討する。
提案したグラフメモリトランスフォーマー(GMT)は、因果自己アテンションをそのまま維持するが、通常のFFN変換をメモリセルに置き換える。
ここで研究したベースGMT v7インスタンス化では、16個のトランスフォーマーブロックはそれぞれ128のセントロイド、128×18のエッジ行列、128のエッジ行列、重力源ルーティング、トークン条件のターゲット選択、ゲート変位読み出しを含む。
従って、セルは、推定されたソースメモリ状態から、検索された値ではなく、ターゲットメモリ状態への移動を返す。
その結果得られたモデルは、82.2Mのトレーニング可能なパラメータを持ち、密度の高いFFNサブレイヤを持たない完全にデコーダのみの言語モデルであり、評価に使用される103.0Mのパラメータ密度GPTスタイルのベースラインと比較される。
ベースv7モデルは安定してトレーニングを行い、フォワード計算の直接検査可能な量として、セントロイドの使用、遷移構造、ソース・ツー・ターゲット運動を公開する。
検証損失とパープレキシティ(3.5995/36.58 vs. 3.2903/26.85)において、より高密度なベースラインの背後に留まり、評価された条件下でのゼロショットベンチマークの挙動を示す。
これらの結果は最先端のクレームではなく、グラフを介するメモリナビゲーションで高密度なイントラトーケン変換を置き換えることの生存可能性と構造的解釈性をサポートする。
より広いスケーリング、最適化されたカーネル、より広範なベンチマーク評価がその後の作業のために残されている。
関連論文リスト
- The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution [0.0]
本稿では,決定論的セマンティックステート基板のC++実装による実運用結果について述べる。
システムは実装前に数学的に特定され、CPU常駐グラフエンジンとして実現された。
その結果、スケーリングは推論バウンドな再計算ではなく、メモリキャパシティによって制御される経験的不変な熱力学機構が示唆された。
論文 参考訳(メタデータ) (2026-02-17T20:57:34Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。
提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文 参考訳(メタデータ) (2025-12-28T20:27:58Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - BPT: Binary Point Cloud Transformer for Place Recognition [30.749570675511386]
位置認識のための二元点雲変換器を提案する。
32ビットの完全精度モデルは、メモリ占有が少なく、より高速な二項化ビット演算が可能な1ビットモデルに還元することができる。
いくつかの標準ベンチマーク実験により,提案手法は対応する完全精度変圧器モデルと同等の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-03-02T11:15:59Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。