論文の概要: How Many Different Outputs Can a Transformer Generate?
- arxiv url: http://arxiv.org/abs/2605.22223v1
- Date: Thu, 21 May 2026 09:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.545288
- Title: How Many Different Outputs Can a Transformer Generate?
- Title(参考訳): トランスフォーマーが生成できる出力はいくつか?
- Authors: Maxime Meyer, Mario Michelessa, Caroline Chaux, Vincent Y. F. Tan,
- Abstract要約: 我々は、変換器のアーキテクチャの特徴をほんの少しだけ活用して、出力できる異なるシーケンス数を正確に予測する方法を研究する。
我々は、プロンプトの長さに応じて上限を提供し、アーキテクチャやモデルのサイズをまたいで、10未満の要因まで厳密であることが実証的に示している。
- 参考スコア(独自算出の注目度): 45.158621811869466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how we can leverage only a handful of characteristics of a transformer's architecture to closely predict the number of different sequences it can output, both qualitatively and quantitatively. We provide an upper bound depending on the length of the prompt, which we show empirically to be tight up to a factor less than 10, across architectures and model sizes. Our analysis also provides a theoretical explanation for previously observed empirical failures of transformers on simple sequence tasks, such as copying and cramming. Formally, we prove that (i) the maximal length of accessible sequences (those that the transformer can output for some prompt) grows linearly with the prompt length, (ii) beyond a critical threshold, the proportion of accessible sequences decays exponentially with sequence length, and (iii) the linear coefficient relating prompt length to accessible sequence length admits a theoretical upper bound. Notably, these results hold even with unbounded context and computation time.
- Abstract(参考訳): 我々は、変換器のアーキテクチャの特徴のほんの一握りしか活用できず、定性的かつ定量的に出力できる異なるシーケンスの数を正確に予測する方法について研究する。
我々は、プロンプトの長さに応じて上限を提供し、アーキテクチャやモデルのサイズをまたいで、10未満の要因まで厳密であることが実証的に示している。
また,本解析は,コピーやクラミングなどの簡単なシーケンスタスクにおいて,従来観測されていた変圧器の故障を理論的に説明する。
正式には、私たちはそれを証明します。
i) アクセス可能なシーケンスの最大長(変換器が何らかのプロンプトを出力できるため)は、プロンプト長とともに直線的に成長する。
(ii)臨界しきい値を超えると、アクセス可能な配列の割合は指数関数的に配列の長さで崩壊し、
3) アクセシブ長とアクセシブルシーケンス長に関する線形係数は、理論上界を許容する。
特に、これらの結果は、境界のないコンテキストと計算時間でも持続する。
関連論文リスト
- Quantitative Bounds for Length Generalization in Transformers [58.175107357008876]
変圧器における長さ一般化(LG)問題について検討する。
LGは、長い列上の変圧器の内部挙動が短い列上の振舞いによって「シミュレート」できるときに発生する。
論文 参考訳(メタデータ) (2025-10-30T21:31:36Z) - Memory Limitations of Prompt Tuning in Transformers [45.158621811869466]
本研究では, 変圧器が記憶する情報量は, 即時長よりも高速に拡張できないことを示す。
また,大規模言語モデルで経験的に観察された現象,すなわち性能劣化の最初の公式な証明も提示する。
この発見は、トランスフォーマーアーキテクチャの本質的な制限に関する根本的な理解を提供する。
論文 参考訳(メタデータ) (2025-08-30T09:08:00Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Adversarial Testing as a Tool for Interpretability: Length-based Overfitting of Elementary Functions in Transformers [0.0]
本研究では, シーケンス・ツー・シーケンス変換器の動作を解釈するために, 定義された誤り指標を用いて基本的な編集関数について検討する。
短い列への一般化がしばしば可能であることを示すが、長い列は非常に問題であることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:39:46Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。