論文の概要: Provably Learning Attention with Queries
- arxiv url: http://arxiv.org/abs/2601.16873v1
- Date: Fri, 23 Jan 2026 16:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.760488
- Title: Provably Learning Attention with Queries
- Title(参考訳): クエリによる意図の学習の可能性
- Authors: Satwik Bhattamishra, Kulin Shah, Michael Hahn, Varun Kanade,
- Abstract要約: 出力にブラックボックスアクセスを持つトランスフォーマーに基づくシーケンスモデルを学習する際の問題点について検討する。
この設定では、学習者は任意のベクトル列でオラクルを適応的にクエリし、対応する実数値出力を観察することができる。
- 参考スコア(独自算出の注目度): 15.606567893781367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning Transformer-based sequence models with black-box access to their outputs. In this setting, a learner may adaptively query the oracle with any sequence of vectors and observe the corresponding real-valued output. We begin with the simplest case, a single-head softmax-attention regressor. We show that for a model with width $d$, there is an elementary algorithm to learn the parameters of single-head attention exactly with $O(d^2)$ queries. Further, we show that if there exists an algorithm to learn ReLU feedforward networks (FFNs), then the single-head algorithm can be easily adapted to learn one-layer Transformers with single-head attention. Next, motivated by the regime where the head dimension $r \ll d$, we provide a randomised algorithm that learns single-head attention-based models with $O(rd)$ queries via compressed sensing arguments. We also study robustness to noisy oracle access, proving that under mild norm and margin conditions, the parameters can be estimated to $\varepsilon$ accuracy with a polynomial number of queries even when outputs are only provided up to additive tolerance. Finally, we show that multi-head attention parameters are not identifiable from value queries in general -- distinct parameterisations can induce the same input-output map. Hence, guarantees analogous to the single-head setting are impossible without additional structural assumptions.
- Abstract(参考訳): 出力にブラックボックスアクセスを持つトランスフォーマーに基づくシーケンスモデルを学習する際の問題点について検討する。
この設定では、学習者は任意のベクトル列でオラクルを適応的にクエリし、対応する実数値出力を観察することができる。
最も単純なケースであるシングルヘッドソフトマックスアテンション回帰器から始める。
我々は,幅が$d$のモデルに対して,$O(d^2)$クエリで単頭注意パラメータを正確に学習する基本アルゴリズムが存在することを示す。
さらに、もしReLUフィードフォワードネットワーク(FFN)を学習するアルゴリズムが存在する場合、シングルヘッドアルゴリズムはシングルヘッドで1層トランスフォーマーを学習するために容易に適応できることを示す。
次に、ヘッドディメンションが$r \ll d$であるレジームによって動機付けられ、圧縮されたセンシング引数を通して、$O(rd)$クエリで単一ヘッドアテンションベースモデルを学習するランダム化アルゴリズムを提供する。
また、ノイズの多いオラクルアクセスに対するロバスト性についても検討し、穏やかなノルム条件とマージン条件下では、出力が加法耐性までしか供給されない場合でも、多項式数でパラメータを$\varepsilon$精度で推定できることを証明した。
最後に、マルチヘッドアテンションパラメータが一般に値クエリから識別できないことを示し、異なるパラメータ化は同一の入出力マップを誘導できることを示す。
したがって、単一ヘッド設定に類似した保証は、追加の構造的な仮定なしでは不可能である。
関連論文リスト
- Storage capacity of perceptron with variable selection [10.64866985260943]
機械学習における中心的な課題は、高次元データにおける真の構造と確率相関を区別することである。
単純なパーセプトロンは$N$変数から$M = N$変数を最適に選択することで、$P = N$ランダムパターンを完全に分類できることを示す。
これは、データの真の構造と急激な正規性とを区別するための定量的な基準を提供するだけでなく、連想記憶モデルの記憶能力ももたらします。
論文 参考訳(メタデータ) (2025-12-01T16:44:57Z) - Parameter-free Algorithms for the Stochastically Extended Adversarial Model [59.81852138768642]
拡張逆数(SEA)モデルの既存のアプローチは、ドメインの直径$D$や損失関数のリプシッツ定数$G$といった問題固有のパラメータの事前知識を必要とする。
パラメータを不要にするためにOptimistic Online Newton Step (OONS) アルゴリズムを利用するパラメータフリー手法を開発した。
論文 参考訳(メタデータ) (2025-10-06T10:53:37Z) - DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection [39.56089737473775]
画像中のフレキシブルな数の物体を検出できるより効率的な変換器検出器DS-Detを提案する。
具体的には、デコーダモデリングのための新しい統合シングルクエリパラダイムを再構成し、導入する。
また,注意障害学習による簡易デコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-26T05:40:04Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Fast Interactive Search with a Scale-Free Comparison Oracle [17.38671584773247]
比較ベースの検索アルゴリズムにより、ユーザはフォームのクエリに応答してデータベース内のターゲットアイテム$t$を見つけることができる。
そのような類似性三重項に対して$(i,j;t)$に対して$gamma$-CKLと呼ばれるスケールフリー確率オラクルモデルを提案する。
我々は,バックトラッキング戦略により,$gamma$-CKL のオラクルの下で,指数関数的に収束率の高い探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-06-02T09:33:19Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。