論文の概要: High-Dimensional Analysis of Single-Layer Attention for Sparse-Token Classification
- arxiv url: http://arxiv.org/abs/2509.25153v1
- Date: Mon, 29 Sep 2025 17:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.138529
- Title: High-Dimensional Analysis of Single-Layer Attention for Sparse-Token Classification
- Title(参考訳): スパーストークン分類のための単層アテンションの高次元解析
- Authors: Nicholas Barnfield, Hugo Cui, Yue M. Lu,
- Abstract要約: 信号強度が対数的に増加すると, 単層アテンション分類器は, 信号長が$L$で対数的に大きくなると, 基本的には消滅するテスト誤差を達成できることを示す。
注意分類器の問合せ重みベクトルに対して2つの勾配更新だけで隠れ信号と非自明なアライメントが得られることを証明し、情報トークンを選択的に増幅する注意マップを誘導する。
- 参考スコア(独自算出の注目度): 14.110007887109782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When and how can an attention mechanism learn to selectively attend to informative tokens, thereby enabling detection of weak, rare, and sparsely located features? We address these questions theoretically in a sparse-token classification model in which positive samples embed a weak signal vector in a randomly chosen subset of tokens, whereas negative samples are pure noise. In the long-sequence limit, we show that a simple single-layer attention classifier can in principle achieve vanishing test error when the signal strength grows only logarithmically in the sequence length $L$, whereas linear classifiers require $\sqrt{L}$ scaling. Moving from representational power to learnability, we study training at finite $L$ in a high-dimensional regime, where sample size and embedding dimension grow proportionally. We prove that just two gradient updates suffice for the query weight vector of the attention classifier to acquire a nontrivial alignment with the hidden signal, inducing an attention map that selectively amplifies informative tokens. We further derive an exact asymptotic expression for the test error and training loss of the trained attention-based classifier, and quantify its capacity -- the largest dataset size that is typically perfectly separable -- thereby explaining the advantage of adaptive token selection over nonadaptive linear baselines.
- Abstract(参考訳): 注意機構は、いつ、どのようにして、情報的トークンに選択的に出席することを学び、弱く、稀で、疎結合な特徴を検出することができるのか?
正のサンプルがランダムに選択されたトークンのサブセットに弱い信号ベクトルを埋め込むが、負のサンプルは純粋なノイズである。
長い列制限では、信号強度が列長$L$で対数的にしか成長しない場合、単層アテンション分類器は原則として消滅試験誤差を達成できるが、線形分類器は$\sqrt{L}$スケーリングを必要とする。
表現力から学習可能性へ移行し,サンプルサイズと埋め込み次元が比例的に大きくなる高次元状態において,有限L$でトレーニングを行う。
注意分類器の問合せ重みベクトルに対して2つの勾配更新だけで隠れた信号と非自明なアライメントが得られることを証明し、情報的トークンを選択的に増幅する注意マップを誘導する。
さらに、トレーニングされた注意ベース分類器のテストエラーとトレーニング損失に対する正確な漸近表現を導き、そのキャパシティ(通常は完全に分離可能な最大のデータセットサイズ)を定量化し、非適応線形ベースラインに対する適応トークン選択の利点を説明します。
関連論文リスト
- CRITS: Convolutional Rectifier for Interpretable Time Series Classification [41.18535141696404]
本稿では、時系列分類のための解釈可能なモデルとして、解釈可能な時系列分類のための畳み込み整流器(CRITS)を提案する。
我々は,一連のデータセット上でCRITSを評価し,その分類性能とその説明的アライメント,感度,理解可能性について検討した。
論文 参考訳(メタデータ) (2025-05-24T08:34:08Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Semi-Supervised Laplace Learning on Stiefel Manifolds [48.3427853588646]
グラフベースで教師付きサンプルを低ラベルレートで作成するためのフレームワークSequential Subspaceを開発した。
我々の手法は極めて低いレートで、高いラベルレートで達成できる。
論文 参考訳(メタデータ) (2023-07-31T20:19:36Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Soft-margin classification of object manifolds [0.0]
単一対象の複数の出現に対応する神経集団は、神経応答空間における多様体を定義する。
そのような多様体を分類する能力は、オブジェクト認識やその他の計算タスクは多様体内の変数に無関心な応答を必要とするため、興味がある。
ソフトマージン分類器は、より大きなアルゴリズムのクラスであり、トレーニングセット外のパフォーマンスを最適化するためにアプリケーションで使われる追加の正規化パラメータを提供する。
論文 参考訳(メタデータ) (2022-03-14T12:23:36Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - On Supervised Classification of Feature Vectors with Independent and
Non-Identically Distributed Elements [10.52087851034255]
特徴ベクトルを互いに独立だが非独立に分散した要素で分類する問題について検討する。
ラベル毎に1つのトレーニング特徴ベクトルしか持たない場合でも,特徴ベクトルの長さが大きくなるにつれて誤差確率がゼロになることを示す。
論文 参考訳(メタデータ) (2020-08-01T06:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。