論文の概要: Layerwise Dynamics for In-Context Classification in Transformers
- arxiv url: http://arxiv.org/abs/2604.11613v2
- Date: Thu, 16 Apr 2026 18:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.288299
- Title: Layerwise Dynamics for In-Context Classification in Transformers
- Title(参考訳): 変圧器のインコンテキスト分類のための層ワイズダイナミクス
- Authors: Patrick Lutz, Themistoklis Haris, Arjun Chandra, Aditya Gangrade, Venkatesh Saligrama,
- Abstract要約: 硬質非マルジン系における多クラス線形分類について検討した。
我々は,各層に特徴とラベルの置換の等式を付与することにより,計算を識別できるようにする。
これにより、機能的等価性を維持しながら解釈可能である。
- 参考スコア(独自算出の注目度): 27.052342498221748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers can perform in-context classification from a few labeled examples, yet the inference-time algorithm remains opaque. We study multi-class linear classification in the hard no-margin regime and make the computation identifiable by enforcing feature- and label-permutation equivariance at every layer. This enables interpretability while maintaining functional equivalence and yields highly structured weights. From these models we extract an explicit depth-indexed recursion: an end-to-end identified, emergent update rule inside a softmax transformer, to our knowledge the first of its kind. Attention matrices formed from mixed feature-label Gram structure drive coupled updates of training points, labels, and the test probe. The resulting dynamics implement a geometry-driven algorithmic motif, which can provably amplify class separation and yields robust expected class alignment.
- Abstract(参考訳): トランスフォーマーはいくつかのラベル付き例からコンテキスト内分類を行うことができるが、推論時アルゴリズムは不透明である。
ハード・ノーマージン・レシエーションにおける多クラス線形分類について検討し,各層に特徴・ラベル・置換の等式を付与することにより,計算を識別できるようにする。
これにより、機能的同値性を維持しながら解釈可能となり、高度に構造化された重みが得られる。
これらのモデルから,軟質マックス変圧器内の端から端まで同定された緊急更新規則を,その種類の知識として抽出する。
混合特徴ラベルグラム構造から形成される注意行列は、トレーニングポイント、ラベル、テストプローブの更新を併用する。
結果として得られる力学は幾何駆動のアルゴリズムモチーフを実装し、クラス分離を確実に増幅し、堅牢なクラスアライメントをもたらす。
関連論文リスト
- Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。
textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。
各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文 参考訳(メタデータ) (2025-06-02T08:13:32Z) - Benign Overfitting and the Geometry of the Ridge Regression Solution in Binary Classification [75.01389991485098]
リッジ回帰はクラスタ平均ベクトルのスケールによって定性的に異なる挙動を示す。
スケールが非常に大きいレジームでは、良心過剰を許容する条件は回帰タスクと同一であることが判明した。
論文 参考訳(メタデータ) (2025-03-11T01:45:42Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - On the rate of convergence of a classifier based on a Transformer
encoder [55.41148606254641]
最適誤分類確率に対する分類器の誤分類確率の収束率を分析する。
この分類器は,アポテリオリ確率が適切な階層的構成モデルを満たす場合,次元性の呪いを回避することができる。
論文 参考訳(メタデータ) (2021-11-29T14:58:29Z) - Learning from Multiple Annotators by Incorporating Instance Features [15.643325526074804]
複数のアノテーションから学ぶことは、トレーニングインスタンスから高品質な分類器を誘導することを目的としている。
既存のほとんどのメソッドでは、ラベルがインスタンスの特徴に依存しないアノテータのクラスレベルの混乱行列が採用されている。
混乱行列に基づくアノテータの性能に対するインスタンス特徴の影響を取り入れたノイズ遷移行列を提案する。
論文 参考訳(メタデータ) (2021-06-29T08:07:24Z) - Convolutional Dynamic Alignment Networks for Interpretable
Classifications [108.83345790813445]
我々は、畳み込み動的アライメントネットワーク(CoDA-Nets)と呼ばれる新しいニューラルネットワークモデルを紹介する。
コアとなるビルディングブロックは動的アライメントユニット(DAU)で、入力をタスク関連パターンと動的に整合する重みベクトルで線形に変換する。
CoDA-Netsは一連の入力依存線形変換を通じて分類予測をモデル化し、出力を個々の入力コントリビューションに線形分解することができる。
論文 参考訳(メタデータ) (2021-03-31T18:03:53Z) - Provably End-to-end Label-Noise Learning without Anchor Points [118.97592870124937]
本稿では,アンカーポイントを使わずにラベルノイズ学習を実現するためのエンドツーエンドフレームワークを提案する。
提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。
論文 参考訳(メタデータ) (2021-02-04T03:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。