論文の概要: Scaled Dot-Product Attention implements projection of inputs onto a common surface
- arxiv url: http://arxiv.org/abs/2602.02521v1
- Date: Sun, 25 Jan 2026 21:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.895748
- Title: Scaled Dot-Product Attention implements projection of inputs onto a common surface
- Title(参考訳): Scaled Dot-Product Attentionは共通面への入力の投影を実現する
- Authors: Terence D Sanger,
- Abstract要約: SDPA(Scaled dot-product attention)は、大規模言語モデルや他の非線形信号処理アプリケーションの成功に寄与する基本的なコンポーネントである。
SDPAは、入力ベクトルが入力自身によって決定される共通面への投影として、異なるが数学的に等価な形で書き換えることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaled dot-product attention (SDPA) is a fundamental component responsible for the success of large-language models and other nonlinear signal processing applications. The rationale for SDPA has been based upon "query, key, value" concepts borrowed from database theory, but these concepts are difficult to reconcile with standard methods in mathematical signal processing. We show that SDPA can be rewritten in a different but mathematically equivalent form as a projection of the input vectors onto a common surface determined by the inputs themselves. Therefore SDPA discovers nonlinear dependencies in the input that are time-dependent and context-dependent. The rewritten form of SDPA permits increased speed of both feedforward and learning algorithms, but more importantly suggests potential extensions. In the context of language, we re-interpret the role of SDPA as finding a time-dependent contextual meaning determined by the surface on which the set of input vectors lies. Input token embeddings are then modified by the local context surface. This interpretation differs substantially from the concept of "self-attention", and provides a strong justification for the use of SDPA for time-series data with time-varying local nonlinear dependencies.
- Abstract(参考訳): SDPA(Scaled dot-product attention)は、大規模言語モデルやその他の非線形信号処理アプリケーションの成功に寄与する基本的なコンポーネントである。
SDPAの理論的根拠は、データベース理論から借用された「クエリ、キー、バリュー」の概念に基づいているが、これらの概念は数理信号処理における標準的な手法との整合が難しい。
SDPAは、入力ベクトルが入力自身によって決定される共通面への投影として、異なるが数学的に等価な形で書き換えることができることを示す。
したがって、SDPAは時間依存および文脈依存の入力における非線形依存関係を発見する。
SDPAの書き換え形式はフィードフォワードと学習アルゴリズムの両方の高速化を可能にするが、より重要なことは潜在的な拡張を示唆している。
言語におけるSDPAの役割は,入力ベクトルの集合が位置する面によって決定される時間依存的な文脈的意味を見出すこととして再解釈する。
入力トークンの埋め込みは、ローカルコンテキストサーフェスによって修正される。
この解釈は「自己注意(self-attention)」という概念とは大きく異なり、時間変化のある局所的非線形依存関係を持つ時系列データにSDPAを用いることを強く正当化する。
関連論文リスト
- PEARL: Prototype-Enhanced Alignment for Label-Efficient Representation Learning with Deployment-Driven Insights from Digital Governance Communication Systems [7.027521313133687]
PEARL は,クラスプロトタイプへの埋め込みをソフトに整列させるため,限定的な監督を用いたラベル効率のよい手法である。
PEARLを極度のラベル不足から高いラベル設定まで制御されたラベル条件下で評価する。
ラベル・スカース条件下では、PEARLは局所的な品質を大幅に改善し、生の埋め込みよりも25.7%向上し、強い監督されていない後処理と比較して21.1%以上向上する。
論文 参考訳(メタデータ) (2026-01-24T15:46:02Z) - How Different from the Past? Spatio-Temporal Time Series Forecasting with Self-Supervised Deviation Learning [15.102926671713668]
時空間連続時間予測フレームワークST-SSDLを提案する。
典型的な時間パターンを表す学習可能なプロトタイプを用いて潜在空間を識別する。
実験によると、ST-SSDLは複数のメトリクスで常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-06T15:21:13Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - datadriftR: An R Package for Concept Drift Detection in Predictive Models [0.0]
本稿では,コンセプトドリフトを検出するためのRパッケージであるドリフト器を紹介する。
ドリフト検出とドリフトの背後にある原因の理解を深めることのできるプロファイルドリフト検出(PDD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-15T20:59:49Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - The Counterfactual-Shapley Value: Attributing Change in System Metrics [10.804568364995982]
帰属問題の重要な要素は、単一入力の特定の変更によるシステム計量の(仮説的な)変化を推定することである。
本稿では,時系列予測モデルを用いて反事実を推定し,属性スコア CF-Shapley を構築する手法を提案する。
実世界のアプリケーションとして、広告マッチング密度の指標に観測された変化をもたらすことを目的として、クエリ-アドマッチングシステムを分析する。
論文 参考訳(メタデータ) (2022-08-17T16:48:20Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Quantitative Understanding of VAE as a Non-linearly Scaled Isometric
Embedding [52.48298164494608]
変分オートエンコーダ(VAE)は、各入力データに対応する潜伏変数の後方パラメータを推定する。
本稿では,VAEの微分幾何学的および情報理論的解釈を通じて,VAEの特性を定量的に理解する。
論文 参考訳(メタデータ) (2020-07-30T02:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。