Fugu-MT 論文翻訳(概要): Clustering in Causal Attention Masking

論文の概要: Clustering in Causal Attention Masking

arxiv url: http://arxiv.org/abs/2411.04990v2
Date: Sun, 10 Nov 2024 17:07:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.51269
Title: Clustering in Causal Attention Masking
Title（参考訳）: 因果注意マスキングにおけるクラスタリング
Authors: Nikita Karagodin, Yury Polyanskiy, Philippe Rigollet,
Abstract要約: この研究は、ジェシコフスキーらによって提案された自己注意のダイナミクス(arXiv:2312.10794)を改良し、生成AIのためのトランスフォーマーアーキテクチャで使用される、実用的な、因果的にマスクされた注意を反映させるものである。この相互作用する粒子系への修正は平均場勾配流と解釈することはできない。
参考スコア（独自算出の注目度）: 24.786862288360076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work presents a modification of the self-attention dynamics proposed by Geshkovski et al. (arXiv:2312.10794) to better reflect the practically relevant, causally masked attention used in transformer architectures for generative AI. This modification translates into an interacting particle system that cannot be interpreted as a mean-field gradient flow. Despite this loss of structure, we significantly strengthen the results of Geshkovski et al. (arXiv:2312.10794) in this context: While previous rigorous results focused on cases where all three matrices (Key, Query, and Value) were scaled identities, we prove asymptotic convergence to a single cluster for arbitrary key-query matrices and a value matrix equal to the identity. Additionally, we establish a connection to the classical R\'enyi parking problem from combinatorial geometry to make initial theoretical steps towards demonstrating the existence of meta-stable states.
Abstract（参考訳）: この研究は、ジェシコフスキら(arXiv:2312.10794)によって提案された自己注意のダイナミクスを改良し、生成AIのためのトランスフォーマーアーキテクチャで使用される、実用的な、因果的にマスクされた注意を反映するものである。この修正は、平均場勾配流として解釈できない相互作用粒子系に変換される。これまでの厳密な結果は、すべての3つの行列(キー、クエリ、バリュー)がスケールしたアイデンティティを持つ場合に焦点を当てたものの、任意のキー-クエリ行列と値行列に対して1つのクラスタに漸近収束することが証明された。さらに,古典的R'enyiパーキング問題と組合せ幾何学の関連性を確立し,メタ安定状態の存在を実証するための最初の理論的ステップを構築する。

関連論文リスト

Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Krylov fractality and complexity in generic random matrix ensembles [0.0]
クリロフ空間法は量子系の動的側面を分析するための効率的なフレームワークを提供する。適切なランダムな行列アンサンブルに対する三対角行列要素と関連する基底ベクトルの特性を考察する。本稿では,3つの条件(エルゴード,フラクタル,局所化)における行列要素と基底ベクトルの特性について考察し,遷移点を特定するためのツールを紹介する。
論文参考訳（メタデータ） (2024-07-10T06:48:31Z)
Regularized Projection Matrix Approximation with Applications to Community Detection [1.3761665705201904]
本稿では,アフィニティ行列からクラスタ情報を復元するための正規化プロジェクション行列近似フレームワークを提案する。 3つの異なるペナルティ関数について検討し, それぞれが有界, 正, スパースシナリオに対応するように調整した。合成および実世界の両方のデータセットで行った数値実験により、我々の正規化射影行列近似アプローチはクラスタリング性能において最先端の手法を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-05-26T15:18:22Z)
Semi-supervised Symmetric Non-negative Matrix Factorization with Low-Rank Tensor Representation [27.14442336413482]
半教師付き対称非負行列分解(SNMF) 対制約行列により合成されたテンソルの低ランク表現を求めるSNMFモデルを提案する。次に、拡張SNMFモデルを提案し、埋め込み行列を上記のテンソル低ランク表現に適合させる。
論文参考訳（メタデータ） (2024-05-04T14:58:47Z)
Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-04-15T12:38:46Z)
EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文参考訳（メタデータ） (2024-03-26T14:18:43Z)
Learning Large Causal Structures from Inverse Covariance Matrix via Sparse Matrix Decomposition [2.403264213118039]
本稿では,逆共分散行列から因果構造を学習することに焦点を当てる。提案手法は,行列分解モデルの連続的最適化に基づくICIDと呼ばれる。本研究では,ノイズ分散の知識を前提として,提案した指向性非巡回グラフ(DAG)を効率よく同定することを示す。
論文参考訳（メタデータ） (2022-11-25T16:32:56Z)
Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。この問題は楕円分布のペナルティ化された最大推定値として表される。楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文参考訳（メタデータ） (2022-10-21T13:19:45Z)
Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。 6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-21T01:47:17Z)
Joint Network Topology Inference via Structured Fusion Regularization [70.30364652829164]
結合ネットワークトポロジ推論は、異種グラフ信号から複数のグラフラプラシア行列を学習する標準的な問題を表す。新規な構造化融合正規化に基づく一般グラフ推定器を提案する。提案するグラフ推定器は高い計算効率と厳密な理論保証の両方を享受できることを示す。
論文参考訳（メタデータ） (2021-03-05T04:42:32Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。