論文の概要: An alternative formulation of attention pooling function in translation
- arxiv url: http://arxiv.org/abs/2409.00068v1
- Date: Fri, 23 Aug 2024 14:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:21:17.482457
- Title: An alternative formulation of attention pooling function in translation
- Title(参考訳): 翻訳におけるアテンションプーリング関数の別の定式化
- Authors: Eddie Conti,
- Abstract要約: 本稿では,翻訳作業における注目度評価関数の定式化について述べる。
数学的には、この公式は注意点行列(例えば$H$)を固定帯域幅を持つ帯域行列の空間に投影するものと考えることができる。
これは、$H$を最もよく近似する行列の存在を保証するコンパクトな部分空間であることを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of this paper is to present an alternative formulation of the attention scoring function in translation tasks. Generally speaking, language is deeply structured, and this is reflected in the attention scoring matrix. We exploit this property to define the attention pooling function, taking this aspect into account. In the first chapters, we introduce the attention mechanism in mathematical terms and explain its limitations and alternative formulations. Next, we focus on the experimental session that led to the alternative formulation. Essentially, we guide queries and keys to interact in a specific manner, encoding the distinct roles of attention heads and directing values on where to seek context. In mathematical terms, we can think of this formula as projecting the attention scores matrix, say $H$, onto the space of band matrices with fixed bandwidth. This convex subspace is clearly finite-dimensional and therefore closed. As a consequence, the projection on this space is well-posed and unique. However, at the price of losing the uniqueness of the projection (i.e., the best approximation for $H$), we defined a new space consisting of band matrices plus error sparse matrices. We prove that this is a compact subspace which guarantees the existence of a matrix that best approximates $H$. We conclude the thesis by validating the new formula, namely calculating how well the new formula for attention scores approximates the original one. Additionally, we explore the impact of different parameters such as w (context windows) and num-pos (number of relevant words in a sentence). These analyses provide deeper insights into how languages are processed and translated, revealing nuances in the roles of context and word relevance.
- Abstract(参考訳): 本研究の目的は,翻訳作業における注目度評価関数の代替的な定式化を行うことである。
一般に、言語は深く構造化されており、注意スコアリング行列に反映される。
我々はこの特性を利用してアテンションプーリング関数を定義し、この側面を考慮に入れます。
第1章では、注意機構を数学的用語で紹介し、その制限と代替的な定式化について説明する。
次に、代替の定式化に繋がる実験的なセッションに焦点を当てる。
基本的に、クエリとキーを特定の方法で操作し、アテンションヘッドの異なる役割をエンコードし、コンテキストを探す場所の値を指示する。
数学的には、この公式は注意点行列(例えば$H$)を固定帯域幅を持つ帯域行列の空間に投影するものと考えることができる。
この凸部分空間は明らかに有限次元であり、従って閉である。
結果として、この空間上の射影はよく考えられ、一意である。
しかし、射影の特異性(すなわち$H$の最適近似)を失う価格で、バンド行列と誤差スパース行列からなる新しい空間を定義した。
これは、$H$を最もよく近似する行列の存在を保証するコンパクトな部分空間であることを証明している。
本論文は,新しい公式,すなわち注意点に対する新しい公式がいかに元の公式に近似するかを計算することによって,論文を締めくくる。
さらに,w(コンテキストウィンドウ)やnum-pos(文中の関連語数)といったパラメータの影響についても検討する。
これらの分析は、言語がどのように処理され、翻訳されるかについての深い洞察を与え、文脈や単語の関連性の役割におけるニュアンスを明らかにする。
関連論文リスト
- Fast Spectrum Estimation of Some Kernel Matrices [0.0]
いくつかのカーネル行列に対して新しい固有値量子化推定フレームワークを導入する。
このフレームワークは、完全な行列を構成するコストを回避しつつ、カーネル行列のすべての固有値に対して有意義な境界を与える。
我々は、カーネル関数に一定の制限を課したこのフレームワークの有効性を証明し、その正確性に関する実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-11-01T15:19:54Z) - Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - A Geometric Notion of Causal Probing [91.14470073637236]
言語モデルの表現空間では、動詞数のような概念に関するすべての情報が線形部分空間に符号化される。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
LEACEは概念情報の約半分を含む1次元の部分空間を返す。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - Bayesian Matrix Decomposition and Applications [8.034728173797953]
本書の唯一の目的は、ベイズ行列分解における概念と数学的ツールを自己完結的に紹介することである。
この控えめな背景以外は、開発は自己完結しており、厳密な証明が提供される。
論文 参考訳(メタデータ) (2023-02-18T07:40:03Z) - Generalized Leverage Scores: Geometric Interpretation and Applications [15.86621510551207]
我々は、行列の列を特異ベクトルの任意の部分集合に関連付けるためにレバレッジスコアの定義を拡張する。
この結果を用いて、2つのよく知られた問題に対する証明可能な保証付き近似アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-16T10:14:08Z) - Sublinear Time Approximation of Text Similarity Matrices [50.73398637380375]
一般的なNystr"om法を不確定な設定に一般化する。
我々のアルゴリズムは任意の類似性行列に適用でき、行列のサイズでサブ線形時間で実行される。
本手法は,CUR分解の単純な変種とともに,様々な類似性行列の近似において非常によく機能することを示す。
論文 参考訳(メタデータ) (2021-12-17T17:04:34Z) - Learning a Compressive Sensing Matrix with Structural Constraints via
Maximum Mean Discrepancy Optimization [17.104994036477308]
本稿では,圧縮センシング関連回復問題に対する測定行列を得るための学習に基づくアルゴリズムを提案する。
ニューラルネットワーク関連のトピックにおけるこのようなメトリクスの最近の成功は、機械学習に基づく問題の解決策を動機付けている。
論文 参考訳(メタデータ) (2021-10-14T08:35:54Z) - Sparse Quadratic Optimisation over the Stiefel Manifold with Application
to Permutation Synchronisation [71.27989298860481]
二次目的関数を最大化するスティーフェル多様体上の行列を求める非最適化問題に対処する。
そこで本研究では,支配的固有空間行列を求めるための,単純かつ効果的なスパーシティプロモーティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T19:17:35Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。