論文の概要: Provably Overwhelming Transformer Models with Designed Inputs
- arxiv url: http://arxiv.org/abs/2502.06038v1
- Date: Sun, 09 Feb 2025 21:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:31.420180
- Title: Provably Overwhelming Transformer Models with Designed Inputs
- Title(参考訳): 入力を設計した変圧器モデルに圧倒される可能性
- Authors: Lev Stambler, Seyed Sajjad Nezhadi, Matthew Coudron,
- Abstract要約: この文字列で評価されたモデルの出力と任意の追加文字列$t$, $mathcalM(s + t)$が、長さ($t$)$leq n_free$のたびに$t$の値に完全に無関心である場合、$mathcalM$は$s$で圧倒される。
我々は、モデルの振る舞いを束縛するために使う、特に強力な「オーバースカッシング」の最悪の形態を証明します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We develop an algorithm which, given a trained transformer model $\mathcal{M}$ as input, as well as a string of tokens $s$ of length $n_{fix}$ and an integer $n_{free}$, can generate a mathematical proof that $\mathcal{M}$ is ``overwhelmed'' by $s$, in time and space $\widetilde{O}(n_{fix}^2 + n_{free}^3)$. We say that $\mathcal{M}$ is ``overwhelmed'' by $s$ when the output of the model evaluated on this string plus any additional string $t$, $\mathcal{M}(s + t)$, is completely insensitive to the value of the string $t$ whenever length($t$) $\leq n_{free}$. Along the way, we prove a particularly strong worst-case form of ``over-squashing'', which we use to bound the model's behavior. Our technique uses computer-aided proofs to establish this type of operationally relevant guarantee about transformer models. We empirically test our algorithm on a single layer transformer complete with an attention head, layer-norm, MLP/ReLU layers, and RoPE positional encoding. We believe that this work is a stepping stone towards the difficult task of obtaining useful guarantees for trained transformer models.
- Abstract(参考訳): トレーニングされた変換モデル $\mathcal{M}$ を入力として与え、トークンの列 $s$ of length $n_{fix}$ と整数 $n_{free}$ を与えられたアルゴリズムは、時間と空間 $\widetilde{O}(n_{fix}^2 + n_{free}^3)$ で $\mathcal{M}$ が $s$ で 'overwhelmed' であることを示す数学的証明を生成することができる。
我々は、$\mathcal{M}$が$s$のとき、$\mathcal{M}$は `overwhelmed' で $s$であり、この文字列で評価されたモデルの出力と任意の追加文字列 $t$, $\mathcal{M}(s + t)$ は、長さ($t$)$\leq n_{free}$ のとき、文字列 $t$ の値に完全に無関心である。
その過程で、モデルの振る舞いを束縛するために使用する、特に強力な‘over-squashing’形式の最悪のケースを証明します。
本手法は, コンピュータ支援型証明を用いて, トランスフォーマーモデルに関するこの種の運用上の保証を確立する。
我々は,本アルゴリズムを,アテンションヘッド,層ノルム,MLP/ReLU層,RoPE位置符号化を備えた単一層トランスフォーマー上で実証実験を行った。
我々は、この研究が、トレーニングされたトランスフォーマーモデルに有用な保証を得ることの難しさへの一歩だと信じている。
関連論文リスト
- Theoretical limitations of multi-layer Transformer [14.63344366356708]
マルチ層デコーダのみの変換器に対して,最初の$textitunconditional$lowboundを証明した。
また、ある$textitindistinguishable$$textitde$すべての可能な入力を見つける新しい証明手法も導入します。
我々の新しい通信モデルと証明技術は、トランスの計算能力のさらなる理解に役立つと信じている。
論文 参考訳(メタデータ) (2024-12-04T02:37:31Z) - Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Uncovering hidden geometry in Transformers via disentangling position
and context [0.6118897979046375]
トレーニングされた変換器の隠れ状態(または埋め込み)を解釈可能なコンポーネントに簡易に分解する。
一般的なトランスフォーマーアーキテクチャや多様なテキストデータセットでは、経験的に広範に数学的構造が見つかる。
論文 参考訳(メタデータ) (2023-10-07T15:50:26Z) - Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space
Viewpoint [76.00222741383375]
GANのインバージョンとStyleGANによる編集は、入力されたイメージを(mathcalW$, $mathcalW+$, $mathcalF$)埋め込みスペースにマッピングし、画像の忠実さと意味のある操作を同時に維持する。
最近のGANインバージョンメソッドでは、編集性を維持しながら再構築の忠実性を改善するために$mathcalW+$と$mathcalF$を探索する。
我々は、$mathcalW$と正確な潜伏者のための画像空間を整列するために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T13:35:32Z) - Model Selection with Near Optimal Rates for Reinforcement Learning with
General Model Classes [27.361399036211694]
有限地平線エピソディック強化学習(RL)問題に対するモデル選択の問題に対処する。
モデル選択フレームワークでは、$mathcalP*$の代わりに、遷移カーネルのネストされたファミリーが$M$を与えられる。
textttARL-GENが$TildemathcalO(d_mathcalE* H2+sqrtd_mathcalE* mathbbM* H2T)$の後悔を得ることを示す。
論文 参考訳(メタデータ) (2021-07-13T05:00:38Z) - Phase Transitions in Rate Distortion Theory and Deep Learning [5.145741425164946]
もし$mathcalS$をエンコードするために$mathcalO(R-s)$のエラーを達成できれば、$mathcalS$は$s$で圧縮できると言う。
ある"ニッチ"信号クラスに対して、$mathcalS$が相転移を起こすことを示す。
論文 参考訳(メタデータ) (2020-08-03T16:48:49Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。