論文の概要: CART: Context-Anchored Recurrent Transformer -- A Parameter-Efficient Architecture with Learned Stability
- arxiv url: http://arxiv.org/abs/2606.01495v2
- Date: Wed, 03 Jun 2026 00:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.593775
- Title: CART: Context-Anchored Recurrent Transformer -- A Parameter-Efficient Architecture with Learned Stability
- Title(参考訳): CART: Context-Anchored Recurrent Transformer -- 学習された安定性を備えたパラメータ効率の高いアーキテクチャ
- Authors: Chad A. Capps,
- Abstract要約: CART(Context-Anchored Recurrent Transformer)は、パラメータ効率のよい言語モデルで、1つの共有コアブロックをR倍の深さで再利用する。
我々は1つのコンシューマGPU上でCARTを2段階に分けて評価した: 64-configuration screen at 3,000 steps, then 36 configurations (P=6, R in 6,8,10, three seed) training for 30500 steps (1B tokens)。
256,512,768,1024: 事前深さPはループ数Rを支配し、Rのステージ1ランクはフルトレーニング時に逆になる(R=6は最高になる)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CART (Context-Anchored Recurrent Transformer), a parameter-efficient language model that reuses a single shared core block R times across depth. Unlike prior looped transformers that recompute key-value tensors at every iteration, CART computes K and V once from a multi-layer prelude and has the recurrent core cross-attend to those frozen tensors via multi-head latent attention. A learned Linear Time-Invariant (LTI) gate keeps the recurrence stable: its spectral radius settles in a narrow band (rho in [0.79, 0.83]) across all 36 fully-trained configurations. We evaluate CART on single consumer GPUs in two stages: a 64-configuration screen at 3,000 steps, then 36 configurations (P=6, R in {6,8,10}, three seeds) trained for 30,500 steps (~1B tokens). Two patterns hold across widths d in {256,512,768,1024}: prelude depth P dominates loop count R, and the Stage-1 ranking of R reverses at full training (R=6 becomes best at d>=512). At the binding d=1024 parameter-parity test, CART does not beat a parameter-matched dense baseline, losing by 1-2% at stored-parameter parity and by ~10% at effective-parameter parity. Diagnostic ablations split the effective-parameter gap into ~5% from weight sharing and a residual ~5% from the heterogeneous prelude/anchor/core/coda framing; the recurrent-core machinery (hyper-connections, LTI gate, loop-index embedding) is individually vestigial. Variable-R inference degrades on both sides of the trained R, a negative result for test-time depth scaling under this recipe.
- Abstract(参考訳): CART(Context-Anchored Recurrent Transformer)は,1つの共有コアブロックをR倍の深さで再利用するパラメータ効率の高い言語モデルである。
繰り返しごとにキー値テンソルを再計算する以前のループ変換器とは異なり、CARTはKとVを多層プリルードから一度計算し、その凍結テンソルに繰り返しかかるコアをマルチヘッド潜時注意で保持する。
学習された線形時変 (LTI) ゲートは再発を安定に保ち、そのスペクトル半径は36の完全訓練された構成全体にわたって狭い帯域 (rho in [0.79, 0.83]) に収まる。
我々は,1つのコンシューマGPU上でCARTを2段階に分けて評価した: 3,000ステップで64構成画面,30500ステップ(〜1Bトークン)でトレーニングされた36構成(P=6,R in {6,8,10},3シード)。
2つのパターンdを {256,512,768,1024} で保持し、前ルード深さPがループ数Rを支配し、Rのステージ1ランクがフルトレーニング時に逆になる(R=6はd>=512)。
結合d=1024パラメータパリティテストでは、CARTはパラメータマッチングされた高密度ベースラインを破らず、保存パラメータパリティで1-2%、有効パラメータパリティで約10%失った。
診断は, 有効パラメータギャップを重量共有から5%, 異種前駆体/アンカー/コア/コア/コーダフレーミングから5%に分割し, 再帰中核機構(ハイパーコネクション, LTIゲート, ループインデックス埋め込み)は個々に有利である。
可変-R推論は、トレーニングされたRの両側で劣化し、このレシピの下でテスト時間深度スケーリングの負の結果である。
関連論文リスト
- Scaling Parallel Sequence Models to Foundation-Scale Vision Encoders [123.58723804218151]
ビジョンファウンデーションモデルは、自己注意の二次的なコストによってボトルネックとなる。
2次元空間伝搬伝搬に基づくC-GSPNを提案する。
論文 参考訳(メタデータ) (2026-05-30T14:29:43Z) - Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - RD-ViT: Recurrent-Depth Vision Transformer for Semantic Segmentation with Reduced Data Dependence Extending the Recurrent-Depth Transformer Architecture to Dense Prediction [2.8222472653971917]
ViT(Vision Transformer)は最先端のセグメンテーション精度を実現するが、大規模なトレーニングデータセットを必要とする。
本稿では,Recurrent-Depth Vision Transformerアーキテクチャを高密度予測タスクに適用したRD-ViTを提案する。
RD-ViTは、ユニークなトランスフォーマーブロックの深いスタックを単一の共有ブロックループT倍に置き換え、LTI安定状態注入で拡張してコンバージェンスを保証する。
論文 参考訳(メタデータ) (2026-05-05T17:21:18Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [48.46721044282335]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。
1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
その結果,TDNは計算処理の劇的な高速化と競合する性能を示した。
論文 参考訳(メタデータ) (2025-07-01T18:46:27Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。