論文の概要: Ordinary Least Squares as an Attention Mechanism
- arxiv url: http://arxiv.org/abs/2504.09663v1
- Date: Sun, 13 Apr 2025 17:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:42.163574
- Title: Ordinary Least Squares as an Attention Mechanism
- Title(参考訳): 注意機構としての普通最小方形
- Authors: Philippe Goulet Coulombe,
- Abstract要約: 制限された注意モジュールの出力として、通常の最小二乗予測(OLS)が書き換えられることを示す。
この接続は、従来の情報検索フレームワークを超えて、注目に対する代替的な視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: I show that ordinary least squares (OLS) predictions can be rewritten as the output of a restricted attention module, akin to those forming the backbone of large language models. This connection offers an alternative perspective on attention beyond the conventional information retrieval framework, making it more accessible to researchers and analysts with a background in traditional statistics. It falls into place when OLS is framed as a similarity-based method in a transformed regressor space, distinct from the standard view based on partial correlations. In fact, the OLS solution can be recast as the outcome of an alternative problem: minimizing squared prediction errors by optimizing the embedding space in which training and test vectors are compared via inner products. Rather than estimating coefficients directly, we equivalently learn optimal encoding and decoding operations for predictors. From this vantage point, OLS maps naturally onto the query-key-value structure of attention mechanisms. Building on this foundation, I discuss key elements of Transformer-style attention and draw connections to classic ideas from time series econometrics.
- Abstract(参考訳): 通常の最小二乗予測(OLS)は、大きな言語モデルのバックボーンを形成するものと同様、制限されたアテンションモジュールの出力として書き直せることを示す。
この接続は、従来の情報検索フレームワークを超えて注意を向ける別の視点を提供し、従来の統計学の背景を持つ研究者やアナリストにとって、よりアクセスしやすいものにしている。
OLS が変換された回帰器空間において類似性に基づく手法としてフレーム化されるとき、部分相関に基づく標準ビューとは異なっている。
実際、OLSソリューションは、内部積を介してトレーニングベクトルとテストベクトルを比較する埋め込み空間を最適化することにより、二乗予測誤差を最小化する、という別の問題の結果として再キャストすることができる。
直接係数を推定するのではなく、予測器の最適符号化と復号演算を等価に学習する。
この点から、OLSは自然にアテンション機構のクエリキー値構造にマッピングする。
この基礎の上に、トランスフォーマースタイルの注目の鍵となる要素について論じ、時系列のエコノメトリから古典的なアイデアとのつながりを引き出す。
関連論文リスト
- Learning Identifiable Structures Helps Avoid Bias in DNN-based Supervised Causal Learning [56.22841701016295]
Supervised Causal Learning (SCL)はこの分野で新興パラダイムである。
既存のディープニューラルネットワーク(DNN)ベースの手法では、"Node-Edgeアプローチ"が一般的である。
論文 参考訳(メタデータ) (2025-02-15T19:10:35Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Latent space configuration for improved generalization in supervised
autoencoder neural networks [0.0]
所望のトポロジを持つLSを得るための2つの手法を提案する。
LS構成を知ることで、LSで類似度尺度を定義し、ラベルを予測したり、複数の入力に対して類似度を推定することができる。
提案手法を用いて衣服のテクスチャ分類を訓練したSAEは,細調整をせずに,LIP,Market1501,WildTrackのデータセットから見当たらないデータによく一般化することを示した。
論文 参考訳(メタデータ) (2024-02-13T13:25:51Z) - Learning Saliency From Fixations [0.9208007322096533]
本稿では, 画像の並列デコードを利用して, 修正マップからのみサリエンシを学習する, 画像中のサリエンシ予測のための新しいアプローチを提案する。
我々のアプローチは、Saliency TRansformer (SalTR) と呼ばれ、SaliconとMIT300ベンチマークの最先端のアプローチと同等のスコアを得る。
論文 参考訳(メタデータ) (2023-11-23T16:04:41Z) - Feature Space Renormalization for Semi-supervised Learning [11.83643978312292]
半教師付き学習(SSL)は、非競合データを活用する強力な手法であることが証明されている。
本稿では,SSLのための機能空間再正規化(FSR)機構を提案する。
本手法は,標準SSLベンチマークの各種データセットにおいて,より優れた性能を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-07T15:07:02Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Context-Aware Ensemble Learning for Time Series [11.716677452529114]
本稿では,ベースモデルの特徴ベクトルの結合である特徴のスーパーセットを用いて,ベースモデル予測を効果的に組み合わせたメタ学習手法を提案する。
我々のモデルは、ベースモデルの予測を機械学習アルゴリズムの入力として使用するのではなく、問題の状態に基づいて各時点における最良の組み合わせを選択する。
論文 参考訳(メタデータ) (2022-11-30T10:36:13Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。