論文の概要: Memory Limitations of Prompt Tuning in Transformers
- arxiv url: http://arxiv.org/abs/2509.00421v1
- Date: Sat, 30 Aug 2025 09:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.225069
- Title: Memory Limitations of Prompt Tuning in Transformers
- Title(参考訳): 変圧器のプロンプトチューニングのメモリ制限
- Authors: Maxime Meyer, Mario Michelessa, Caroline Chaux, Vincent Y. F. Tan,
- Abstract要約: 本研究では, 変圧器が記憶する情報量は, 即時長よりも高速に拡張できないことを示す。
また,大規模言語モデルで経験的に観察された現象,すなわち性能劣化の最初の公式な証明も提示する。
この発見は、トランスフォーマーアーキテクチャの本質的な制限に関する根本的な理解を提供する。
- 参考スコア(独自算出の注目度): 45.158621811869466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the empirical success of prompt tuning in adapting pretrained language models to new tasks, theoretical analyses of its capabilities remain limited. Existing theoretical work primarily addresses universal approximation properties, demonstrating results comparable to standard weight tuning. In this paper, we explore a different aspect of the theory of transformers: the memorization capability of prompt tuning. We provide two principal theoretical contributions. First, we prove that the amount of information memorized by a transformer cannot scale faster than linearly with the prompt length. Second, and more importantly, we present the first formal proof of a phenomenon empirically observed in large language models: performance degradation in transformers with extended contexts. We rigorously demonstrate that transformers inherently have limited memory, constraining the amount of information they can retain, regardless of the context size. This finding offers a fundamental understanding of the intrinsic limitations of transformer architectures, particularly their ability to handle long sequences.
- Abstract(参考訳): 事前訓練された言語モデルを新しいタスクに適用する際の即時チューニングの実証的な成功にもかかわらず、その能力に関する理論的分析は限定的のままである。
既存の理論的な研究は主に普遍近似特性を扱い、標準ウェイトチューニングに匹敵する結果を示す。
本稿では,変圧器理論の異なる側面,即時チューニングの記憶能力について考察する。
主な理論的貢献は2つある。
まず, 変圧器が記憶する情報量が, 即時長で線形に拡張できないことを証明する。
第2に,大言語モデルで経験的に観察された現象の初めての公式な証明として,拡張文脈をもつ変圧器の性能劣化を示す。
コンテクストのサイズに関わらず、変換器は本質的に限られたメモリを持ち、保持できる情報の量を制限することを厳格に実証する。
この発見は、トランスフォーマーアーキテクチャの本質的な制限、特に長いシーケンスを扱う能力に関する根本的な理解を提供する。
関連論文リスト
- Quantitative Bounds for Length Generalization in Transformers [58.175107357008876]
変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
論文 参考訳(メタデータ) (2025-10-30T21:31:36Z) - Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文 参考訳(メタデータ) (2025-05-29T16:30:30Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning [9.730604030100318]
大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。
IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。
本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。
我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。
我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。
この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T05:41:46Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器の1次論理的推論能力をパラメータ化知識を用いて一般化する。
本稿では,一階述語論理エンターメントの性能を大幅に向上させる論理認識アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - A Formal Framework for Understanding Length Generalization in Transformers [14.15513446489798]
因果変換器における長さ一般化を解析するための厳密な理論的枠組みを導入する。
我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。
論文 参考訳(メタデータ) (2024-10-03T01:52:01Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。