論文の概要: Gaussian Match-and-Copy: A Minimalist Benchmark for Studying Transformer Induction
- arxiv url: http://arxiv.org/abs/2602.07562v1
- Date: Sat, 07 Feb 2026 14:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.693869
- Title: Gaussian Match-and-Copy: A Minimalist Benchmark for Studying Transformer Induction
- Title(参考訳): Gaussian Match-and-Copy: 変圧器誘導の研究のためのミニマリストベンチマーク
- Authors: Antoine Gonon, Alexandre Cordonnier, Nicolas Boumal,
- Abstract要約: 本稿では,2階相関信号による長距離検索を分離するミニマリストベンチマークを提案する。
数値的な研究により、このタスクは変換器のマッチング・アンド・コピー回路開発における重要な質的な側面を保っていることが示されている。
明示的な技術的条件下での経験的損失を解消するGD軌道に対して,この極大アライメントを証明した。
- 参考スコア(独自算出の注目度): 44.83333974000826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Match-and-copy is a core retrieval primitive used at inference time by large language models to retrieve a matching token from the context then copy its successor. Yet, understanding how this behavior emerges on natural data is challenging because retrieval and memorization are entangled. To disentangle the two, we introduce Gaussian Match-and-Copy (GMC), a minimalist benchmark that isolates long-range retrieval through pure second-order correlation signals. Numerical investigations show that this task retains key qualitative aspects of how Transformers develop match-and-copy circuits in practice, and separates architectures by their retrieval capabilities. We also analyze the optimization dynamics in a simplified attention setting. Although many solutions are a priori possible under a regression objective, including ones that do not implement retrieval, we identify an implicit-bias regime in which gradient descent drives the parameters to diverge while their direction aligns with the max-margin separator, yielding hard match selection. We prove this max-margin alignment for GD trajectories that reach vanishing empirical loss under explicit technical conditions.
- Abstract(参考訳): Match-and-copyは、大きな言語モデルが推論時に使用するコア検索プリミティブで、コンテキストからマッチングトークンを取得して後継をコピーする。
しかし、この行動がどのように自然データに現れるかを理解することは、検索と記憶が絡み合っているため困難である。
本稿では,2次相関信号による長距離検索を分離する最小限のベンチマークであるGaussian Match-and-Copy(GMC)を紹介する。
数値解析により,この課題はトランスフォーマーが実際にマッチ・アンド・コピー回路を開発する方法の重要な定性的な側面を保ち,検索能力によってアーキテクチャを分離することを示した。
また,最適化のダイナミクスを簡易な注意設定で解析する。
多くの解は回帰的目的の下では最優先であり、検索を実装しないものを含むが、勾配降下がパラメータを分岐させ、方向が最大マージンセパレータと整合し、ハードマッチ選択をもたらす暗黙のバイアス体制を同定する。
明示的な技術的条件下での経験的損失を解消するGD軌道に対して,この極大アライメントを証明した。
関連論文リスト
- To Copy or Not to Copy: Copying Is Easier to Induce Than Recall [5.057026826740146]
言語モデルは、重みに格納されたパラメトリック知識と、プロンプトの文脈情報とを仲裁しなければならない。
本研究は, モデルアクティベーションから慣性ベクトルを抽出し, その選択に関する力学的検討を行う。
論文 参考訳(メタデータ) (2026-01-17T14:46:29Z) - Robust Canonicalization through Bootstrapped Data Re-Alignment [5.437226012505534]
昆虫や鳥の識別などのきめ細かい視覚分類タスクは、微妙な視覚的手がかりに対する感受性を必要とする。
分散を低減してトレーニングサンプルを反復的に調整するブートストラップアルゴリズムを提案する。
本手法は,拡張と同等の性能を保ちながら,同変および正準化ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-09T13:05:20Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。