論文の概要: Memory Limitations of Prompt Tuning in Transformers
- arxiv url: http://arxiv.org/abs/2509.00421v1
- Date: Sat, 30 Aug 2025 09:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.225069
- Title: Memory Limitations of Prompt Tuning in Transformers
- Title(参考訳): 変圧器のプロンプトチューニングのメモリ制限
- Authors: Maxime Meyer, Mario Michelessa, Caroline Chaux, Vincent Y. F. Tan,
- Abstract要約: 本研究では, 変圧器が記憶する情報量は, 即時長よりも高速に拡張できないことを示す。
また,大規模言語モデルで経験的に観察された現象,すなわち性能劣化の最初の公式な証明も提示する。
この発見は、トランスフォーマーアーキテクチャの本質的な制限に関する根本的な理解を提供する。
- 参考スコア(独自算出の注目度): 45.158621811869466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the empirical success of prompt tuning in adapting pretrained language models to new tasks, theoretical analyses of its capabilities remain limited. Existing theoretical work primarily addresses universal approximation properties, demonstrating results comparable to standard weight tuning. In this paper, we explore a different aspect of the theory of transformers: the memorization capability of prompt tuning. We provide two principal theoretical contributions. First, we prove that the amount of information memorized by a transformer cannot scale faster than linearly with the prompt length. Second, and more importantly, we present the first formal proof of a phenomenon empirically observed in large language models: performance degradation in transformers with extended contexts. We rigorously demonstrate that transformers inherently have limited memory, constraining the amount of information they can retain, regardless of the context size. This finding offers a fundamental understanding of the intrinsic limitations of transformer architectures, particularly their ability to handle long sequences.
- Abstract(参考訳): 事前訓練された言語モデルを新しいタスクに適用する際の即時チューニングの実証的な成功にもかかわらず、その能力に関する理論的分析は限定的のままである。
既存の理論的な研究は主に普遍近似特性を扱い、標準ウェイトチューニングに匹敵する結果を示す。
本稿では,変圧器理論の異なる側面,即時チューニングの記憶能力について考察する。
主な理論的貢献は2つある。
まず, 変圧器が記憶する情報量が, 即時長で線形に拡張できないことを証明する。
第2に,大言語モデルで経験的に観察された現象の初めての公式な証明として,拡張文脈をもつ変圧器の性能劣化を示す。
コンテクストのサイズに関わらず、変換器は本質的に限られたメモリを持ち、保持できる情報の量を制限することを厳格に実証する。
この発見は、トランスフォーマーアーキテクチャの本質的な制限、特に長いシーケンスを扱う能力に関する根本的な理解を提供する。
関連論文リスト
- Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文 参考訳(メタデータ) (2025-05-29T16:30:30Z) - Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning [9.730604030100318]
大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。
IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。
本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。
我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器の1次論理的推論能力をパラメータ化知識を用いて一般化する。
本稿では,一階述語論理エンターメントの性能を大幅に向上させる論理認識アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。