Fugu-MT 論文翻訳(概要): Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning

論文の概要: Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning

arxiv url: http://arxiv.org/abs/2505.16950v1
Date: Thu, 22 May 2025 17:33:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.50586
Title: Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning
Title（参考訳）: Bottlenecked Transformers: 一般化推論のための周期的KVキャッシュ抽象化
Authors: Adnan Oomerjee, Zafeirios Fountas, Zhongwei Yu, Haitham Bou-Ammar, Jun Wang,
Abstract要約: 大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。 IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
参考スコア（独自算出の注目度）: 9.730604030100318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite their impressive capabilities, Large Language Models struggle with generalisation beyond their training distribution, often exhibiting sophisticated pattern interpolation rather than true abstract reasoning (extrapolation). In this work, we approach this limitation through the lens of Information Bottleneck (IB) theory, which posits that model generalisation emerges from an optimal balance between input compression and retention of predictive information in latent representations. We prove using IB theory that decoder-only Transformers are inherently constrained in their ability to form task-optimal sequence representations. We then use this result to demonstrate that periodic global transformation of the internal sequence-level representations (KV cache) is a necessary computational step for improving Transformer generalisation in reasoning tasks. Based on these theoretical insights, we propose a modification to the Transformer architecture, in the form of an additional module that globally rewrites the KV cache at periodic intervals, shifting its capacity away from memorising input prefixes and toward encoding features most useful for predicting future tokens. Our model delivers substantial gains on mathematical reasoning benchmarks, outperforming both vanilla Transformers with up to 3.5x more parameters, as well as heuristic-driven pruning mechanisms for cache compression. Our approach can be seen as a principled generalisation of existing KV-cache compression methods; whereas such methods focus solely on compressing input representations, they often do so at the expense of retaining predictive information, and thus their capabilities are inherently bounded by those of an unconstrained model. This establishes a principled framework to manipulate Transformer memory using information theory, addressing fundamental reasoning limitations that scaling alone cannot overcome.
Abstract（参考訳）: その印象的な能力にもかかわらず、大規模言語モデルは訓練分布を超えて一般化に苦慮し、しばしば真の抽象的推論(外挿)よりも洗練されたパターン補間を示す。本稿では,入力圧縮と潜在表現における予測情報の保持の最適バランスからモデル一般化が生じることを示唆する,情報ボトルネック(IB)理論のレンズによるこの制限にアプローチする。 IB理論を用いて、デコーダのみの変換器は、タスク最適シーケンス表現を形成する能力に本質的に制約されていることを証明した。次に、この結果を用いて、内部列レベルの表現(KVキャッシュ)の周期的大域的変換が、推論タスクにおけるトランスフォーマー一般化を改善するために必要な計算ステップであることを実証する。これらの理論的な知見に基づいて,我々は,KVキャッシュを周期的にグローバルに書き直し,記憶する入力プレフィックスからキャパシティをシフトさせ,将来的なトークンの予測に最も有用な符号化機能へと移行するモジュールを付加したTransformerアーキテクチャの変更を提案する。我々のモデルは、最大3.5倍のパラメータを持つバニラ変換器と、キャッシュ圧縮のためのヒューリスティック駆動プルーニング機構の両方より優れた、数学的推論ベンチマークで大幅に向上する。提案手法は,既存のKV-cache圧縮手法の原理的一般化であり,入力表現の圧縮にのみ焦点をあてるものであるのに対して,予測情報の保持を犠牲にして行うことが多く,制約のないモデルによってその能力は本質的に境界づけられている。これにより、情報理論を用いてトランスフォーマーメモリを操作するための原則的なフレームワークが確立され、スケーリングだけでは克服できない基本的な推論制限に対処する。

関連論文リスト

Learning Modular Exponentiation with Transformers [0.0]
4層エンコーダ・デコーダ・トランスモデルをトレーニングし、モジュラー指数化を行う。相互学習は高い性能向上をもたらし、関連するモジュラーを突如に一般化する。これらの結果から,変圧器モデルは特殊計算回路を用いてモジュラー演算を学習することが示唆された。
論文参考訳（メタデータ） (2025-06-30T10:00:44Z)
Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文参考訳（メタデータ） (2025-06-02T16:52:51Z)
Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文参考訳（メタデータ） (2025-05-30T12:39:26Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers [0.0]
本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
論文参考訳（メタデータ） (2024-05-07T19:05:26Z)
A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たすモデル圧縮法は、Transformerのメモリと計算コストを削減する。この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文参考訳（メタデータ） (2024-02-05T12:16:28Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。