論文の概要: Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning
- arxiv url: http://arxiv.org/abs/2505.16950v1
- Date: Thu, 22 May 2025 17:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.50586
- Title: Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning
- Title(参考訳): Bottlenecked Transformers: 一般化推論のための周期的KVキャッシュ抽象化
- Authors: Adnan Oomerjee, Zafeirios Fountas, Zhongwei Yu, Haitham Bou-Ammar, Jun Wang,
- Abstract要約: 大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。
IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。
本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。
我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
- 参考スコア(独自算出の注目度): 9.730604030100318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive capabilities, Large Language Models struggle with generalisation beyond their training distribution, often exhibiting sophisticated pattern interpolation rather than true abstract reasoning (extrapolation). In this work, we approach this limitation through the lens of Information Bottleneck (IB) theory, which posits that model generalisation emerges from an optimal balance between input compression and retention of predictive information in latent representations. We prove using IB theory that decoder-only Transformers are inherently constrained in their ability to form task-optimal sequence representations. We then use this result to demonstrate that periodic global transformation of the internal sequence-level representations (KV cache) is a necessary computational step for improving Transformer generalisation in reasoning tasks. Based on these theoretical insights, we propose a modification to the Transformer architecture, in the form of an additional module that globally rewrites the KV cache at periodic intervals, shifting its capacity away from memorising input prefixes and toward encoding features most useful for predicting future tokens. Our model delivers substantial gains on mathematical reasoning benchmarks, outperforming both vanilla Transformers with up to 3.5x more parameters, as well as heuristic-driven pruning mechanisms for cache compression. Our approach can be seen as a principled generalisation of existing KV-cache compression methods; whereas such methods focus solely on compressing input representations, they often do so at the expense of retaining predictive information, and thus their capabilities are inherently bounded by those of an unconstrained model. This establishes a principled framework to manipulate Transformer memory using information theory, addressing fundamental reasoning limitations that scaling alone cannot overcome.
- Abstract(参考訳): その印象的な能力にもかかわらず、大規模言語モデルは訓練分布を超えて一般化に苦慮し、しばしば真の抽象的推論(外挿)よりも洗練されたパターン補間を示す。
本稿では,入力圧縮と潜在表現における予測情報の保持の最適バランスからモデル一般化が生じることを示唆する,情報ボトルネック(IB)理論のレンズによるこの制限にアプローチする。
IB理論を用いて、デコーダのみの変換器は、タスク最適シーケンス表現を形成する能力に本質的に制約されていることを証明した。
次に、この結果を用いて、内部列レベルの表現(KVキャッシュ)の周期的大域的変換が、推論タスクにおけるトランスフォーマー一般化を改善するために必要な計算ステップであることを実証する。
これらの理論的な知見に基づいて,我々は,KVキャッシュを周期的にグローバルに書き直し,記憶する入力プレフィックスからキャパシティをシフトさせ,将来的なトークンの予測に最も有用な符号化機能へと移行するモジュールを付加したTransformerアーキテクチャの変更を提案する。
我々のモデルは、最大3.5倍のパラメータを持つバニラ変換器と、キャッシュ圧縮のためのヒューリスティック駆動プルーニング機構の両方より優れた、数学的推論ベンチマークで大幅に向上する。
提案手法は,既存のKV-cache圧縮手法の原理的一般化であり,入力表現の圧縮にのみ焦点をあてるものであるのに対して,予測情報の保持を犠牲にして行うことが多く,制約のないモデルによってその能力は本質的に境界づけられている。
これにより、情報理論を用いてトランスフォーマーメモリを操作するための原則的なフレームワークが確立され、スケーリングだけでは克服できない基本的な推論制限に対処する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers [0.0]
本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。
よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。
本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
論文 参考訳(メタデータ) (2024-05-07T19:05:26Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。