論文の概要: AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective
- arxiv url: http://arxiv.org/abs/2409.04275v1
- Date: Fri, 6 Sep 2024 13:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:44:50.406590
- Title: AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective
- Title(参考訳): AttentionX:分散最適化の観点からの合意の不一致を警告する
- Authors: Guoqiang Zhang, Richard Heusdens,
- Abstract要約: 本稿では,標準アテンションの出力更新圧縮にコンセンサスの不一致を組み込むために,アテンションXを提案する。
ViTおよびnanoGPTの実験は有望な性能を示した。
- 参考スコア(独自算出の注目度): 5.815368179866299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we extend the standard Attention in transformer by exploiting the consensus discrepancy from a distributed optimization perspective, referred to as AttentionX. It is noted that %the popular distributed optimization algorithm \cite{Boyd11ADMM} and the primal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} is designed to iteratively solve a broad class of distributed optimization problems over a pear-to-pear (P2P) network, where neighbouring nodes gradually reach consensus as specified by predefined linear edge-constraints in the optimization process. In particular, at each iteration of PDMM, each node in a network first performs information-gathering from neighbours and then performs local information-fusion. From a high-level point of view, the $KQ$-softmax-based weighted summation of $V$-representations in Attention corresponds information-gathering from neighbours while the feature-processing via the feed-forward network (FFN) in transformer corresponds to local information fusion. PDMM exploits the Lagrangian multipliers to capture the historical consensus discrepancy in the form of residual errors of the linear edge-constraints, which plays a crucial role for the algorithm to converge. Inspired by PDMM, we propose AttentionX to incorporate the consensus discrepancy in the output update-expression of the standard Attention. The consensus discrepancy in AttentionX refers to the difference between the weighted summation of $V$-representations and scaled $V$-representions themselves. Experiments on ViT and nanoGPT show promising performance.
- Abstract(参考訳): 本稿では,分散最適化の観点からのコンセンサス差を利用して,変圧器の標準アテンションを拡張し,アテンションXと呼ぶ。
一般の分散最適化アルゴリズム \cite{Boyd11ADMM} とprimal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} は、pear-to-pear (P2P) ネットワーク上の分散最適化問題の幅広いクラスを反復的に解決するように設計されている。
特にPDMMの各イテレーションでは、ネットワークの各ノードがまず近隣から情報収集を行い、次にローカル情報融合を行う。
高レベルの観点からは、$KQ$-softmax-based weighted summation of $V$-representations in Attentionは近隣の情報収集に対応し、一方、トランスフォーマーのフィードフォワードネットワーク(FFN)による特徴処理はローカル情報融合に対応している。
PDMMはラグランジアン乗算器を利用して、線形エッジ制約の残差エラーという形で歴史的コンセンサス差を捉え、アルゴリズムが収束するのに重要な役割を果たす。
PDMMにインスパイアされた我々は、標準注意の出力更新圧縮にコンセンサスの不一致を組み込むために、AttentionXを提案する。
AttentionXにおけるコンセンサスの違いは、$V$-representations と $V$-representions の重み付け和と、それ自身をスケールした$V$-representions との差を指す。
ViTおよびnanoGPTの実験は有望な性能を示した。
関連論文リスト
- Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Uniform Transformation: Refining Latent Representation in Variational Autoencoders [7.4316292428754105]
本稿では,不規則な潜伏分布に対応するために,新しい適応型3段階一様変換(UT)モジュールを提案する。
この手法は不規則分布を潜在空間の均一分布に再構成することにより、潜在表現の絡み合いと解釈可能性を大幅に向上させる。
実験により,提案するUTモジュールの有効性を実証し,ベンチマークデータセット間の絡み合いの指標を改良した。
論文 参考訳(メタデータ) (2024-07-02T21:46:23Z) - Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy [47.997934291881414]
既存の平均推定スキームは、通常、$L_infty$幾何に最適化され、ランダムな回転や、$L$幾何に適応するカシンの表現に依存する。
本稿では,スパシフィケーションに固有のランダム性をDPに組み込んだ,スパシフィケーションガウシアン機構の新たなプライバシ会計手法を提案する。
従来の手法とは異なり、我々の会計アルゴリズムは直接$L$幾何で動作し、ガウスの機構に迅速に収束するMSEが得られる。
論文 参考訳(メタデータ) (2024-05-02T03:48:47Z) - Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。
固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。
W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Distributed Variational Inference for Online Supervised Learning [15.038649101409804]
本稿では,スケーラブルな分散確率的推論アルゴリズムを提案する。
センサネットワークにおける連続変数、難解な後部データ、大規模リアルタイムデータに適用できる。
論文 参考訳(メタデータ) (2023-09-05T22:33:02Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Towards Plausible Differentially Private ADMM Based Distributed Machine
Learning [27.730535587906168]
本稿では,PP-ADMM と IPP-ADMM という,可塑性差分ADMM アルゴリズムを提案する。
同じプライバシ保証の下では、提案アルゴリズムはモデル精度と収束率の観点から、最先端技術である。
論文 参考訳(メタデータ) (2020-08-11T03:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。