論文の概要: Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning
- arxiv url: http://arxiv.org/abs/2505.16950v3
- Date: Fri, 26 Sep 2025 14:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.379148
- Title: Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning
- Title(参考訳): ボットネック変換器:一般化推論のための周期的KVキャッシュ統合
- Authors: Adnan Oomerjee, Zafeirios Fountas, Haitham Bou-Ammar, Jun Wang,
- Abstract要約: トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示すことが示されている。
KVキャッシュの書き直しによるメモリ(re)統合が、推論の改善に有効である理由を理論的に正当化する。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
- 参考スコア(独自算出の注目度): 16.35681450323654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer LLMs have been shown to exhibit strong reasoning ability that scales with inference-time compute, most prominently through token-space "thinking" chains of thought. A growing line of work pushes extra computation into the model's latent space, which we term Auxiliary Latent-Space Computation (ALSC). Existing ALSC methods largely fall into three buckets: (i) token-mediated latent rollouts, (ii) residual/activation steering, and (iii) memory (KV) compression. An underexplored alternative is memory consolidation/reconsolidation, two processes in the brain that are responsible for stabilising newly formed memory traces, and, upon recall, transiently rendering established traces plastic such they can integrate new contextual information before restabilising. In Transformer LLMs, this can be seen as analogous to performing in-place rewrites of new KV segments, and rewrites of recalled past segments. In this work, we give a theoretical justification as to why memory (re)consolidation via KV cache rewrites is beneficial for improved reasoning. We do this through the lens of Information Bottleneck (IB) theory, which posits that model generalisation emerges from an optimal balance between input information compression and retention of predictive information in latent representations. We then introduce the Bottlenecked Transformer, which augments a backbone LLM with a Cache Processor, an auxiliary Transformer that performs periodic, non-causal, in-place KV rewrites at newline-delimited reasoning step boundaries. The Processor consolidates recently written KV entries and reconsolidates a small, top-k attention-selected set of prior entries. We evaluate our Bottlenecked Transformer architecture on math reasoning benchmarks. Our model sees consistent performance gains over vanilla Transformers and pause-token augmented baselines, with gains of up to +6.6pp for selected tasks/backbones.
- Abstract(参考訳): トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示しており、最も顕著なのはトークン空間の「思考」思考連鎖である。
増大する作業のラインは、余分な計算をモデルの潜在空間に押し込み、補助的な潜在空間計算 (ALSC) と呼ぶ。
既存のALSCメソッドは3つのバケットに大別される。
(i)トークンによる遅延ロールアウト
(二)残留・活性化ステアリング、及び
(iii)メモリ圧縮(KV)。
未発見の代替手段として、新たに形成された記憶の痕跡を安定化させる2つのプロセスである記憶統合/再統合がある。
Transformer LLMでは、これは新しいKVセグメントのインプレース書き直しや、リコールされた過去のセグメントの書き直しと類似していると見なすことができる。
本稿では,KVキャッシュ書き換えによるメモリ(再)統合が,推論の改善に有用である理由を理論的に説明する。
我々は、入力情報圧縮と潜在表現における予測情報の保持の最適バランスから、モデル一般化が現れることを示唆するInformation Bottleneck(IB)理論のレンズを用いてこれを行う。
次に、Bottlenecked Transformerを導入し、キャッシュプロセッサでバックボーンLLMを拡張します。これは、新しいライン制限推論ステップ境界で周期的、非因果的、インプレースKV書き換えを実行する補助トランスフォーマーです。
プロセッサは、最近書かれたKVエントリを集約し、前のエントリの小さな、トップkのアテンション選択されたセットを再統合する。
我々は,Bottlenecked Transformerアーキテクチャを数学推論ベンチマークで評価した。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
関連論文リスト
- Learning Modular Exponentiation with Transformers [0.0]
4層エンコーダ・デコーダ・トランスモデルをトレーニングし、モジュラー指数化を行う。
相互学習は高い性能向上をもたらし、関連するモジュラーを突如に一般化する。
これらの結果から,変圧器モデルは特殊計算回路を用いてモジュラー演算を学習することが示唆された。
論文 参考訳(メタデータ) (2025-06-30T10:00:44Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。
提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers [0.0]
本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。
よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。
本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
論文 参考訳(メタデータ) (2024-05-07T19:05:26Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。