論文の概要: Gradual Forgetting: Logarithmic Compression for Extending Transformer Context Windows
- arxiv url: http://arxiv.org/abs/2510.22109v1
- Date: Sat, 25 Oct 2025 01:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.823485
- Title: Gradual Forgetting: Logarithmic Compression for Extending Transformer Context Windows
- Title(参考訳): Gradual Forgetting: Transformer Context Windowsの拡張のための対数圧縮
- Authors: Billy Dickson, Zoran Tiganj,
- Abstract要約: 本稿では,トランスアーキテクチャではなく,入力表現自体を変更するアプローチを提案する。
人間の記憶の認知モデルに着想を得て,入力トークンにスケール不変の対数圧縮を適用した。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most approaches to long-context processing increase the complexity of the transformer's internal architecture by integrating mechanisms such as recurrence or auxiliary memory modules. In this work, we introduce an alternative approach that modifies the input representation itself, rather than the transformer architecture. Inspired by cognitive models of human memory, our method applies a scale-invariant logarithmic compression to the input tokens. The resulting compressed representation is processed by a standard, unmodified transformer, preserving architectural simplicity. We evaluate this approach on the WikiText-103 and PG-19 language modeling benchmarks, showing a reduction in perplexity compared to uncompressed baselines. Moreover, performance improves consistently with longer compressed temporal contexts, showing that input-level logarithmic compression is a simple and effective way to extend a transformer's long-range memory.
- Abstract(参考訳): 長いコンテキスト処理へのほとんどのアプローチは、リカレンスや補助メモリモジュールのようなメカニズムを統合することで、トランスフォーマーの内部アーキテクチャの複雑さを増大させる。
本研究では,トランスアーキテクチャではなく,入力表現自体を変更するアプローチを提案する。
人間の記憶の認知モデルにインスパイアされた本手法は,入力トークンにスケール不変の対数圧縮を適用する。
圧縮された表現は、標準的な無修正変換器で処理され、アーキテクチャの単純さが保たれる。
本手法をWikiText-103およびPG-19言語モデリングベンチマークで評価し,非圧縮ベースラインに比べて難易度が低下したことを示す。
さらに、入力レベルの対数圧縮は、変圧器の長距離メモリを拡張するための単純で効果的な方法であることを示す。
関連論文リスト
- Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning [16.35681450323654]
トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示すことが示されている。
KVキャッシュの書き直しによるメモリ(re)統合が、推論の改善に有効である理由を理論的に正当化する。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。