Fugu-MT 論文翻訳(概要): AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective

論文の概要: AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective

arxiv url: http://arxiv.org/abs/2409.04275v2
Date: Mon, 9 Sep 2024 13:51:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 13:16:17.345115
Title: AttentionX: Exploiting Consensus Discrepancy In Attention from A Distributed Optimization Perspective
Title（参考訳）: AttentionX:分散最適化の観点からの合意の不一致を警告する
Authors: Guoqiang Zhang, Richard Heusdens,
Abstract要約: 本稿では,標準アテンションの出力更新圧縮にコンセンサスの不一致を組み込むために,アテンションXを提案する。 ViTおよびnanoGPTの実験は有望な性能を示した。
参考スコア（独自算出の注目度）: 5.815368179866299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we extend the standard Attention in transformer by exploiting the consensus discrepancy from a distributed optimization perspective, referred to as AttentionX. It is noted that the primal-dual method of multipliers (PDMM) \cite{Zhang16PDMM} is designed to iteratively solve a broad class of distributed optimization problems over a pear-to-pear (P2P) network, where neighbouring nodes gradually reach consensus as specified by predefined linear edge-constraints in the optimization process. In particular, at each iteration of PDMM, each node in a network first performs information-gathering from neighbours and then performs local information-fusion. From a high-level point of view, the $KQ$-softmax-based weighted summation of $V$-representations in Attention corresponds information-gathering from neighbours while the feature-processing via the feed-forward network (FFN) in transformer corresponds to local information fusion. PDMM exploits the Lagrangian multipliers to capture the historical consensus discrepancy in the form of residual errors of the linear edge-constraints, which plays a crucial role for the algorithm to converge. Inspired by PDMM, we propose AttentionX to incorporate the consensus discrepancy in the output update-expression of the standard Attention. The consensus discrepancy in AttentionX refers to the difference between the weighted summation of $V$-representations and scaled $V$-representions themselves. Experiments on ViT and nanoGPT show promising performance.
Abstract（参考訳）: 本稿では,分散最適化の観点からのコンセンサス差を利用して,変圧器の標準アテンションを拡張し,アテンションXと呼ぶ。また, pear-to-pear (P2P) ネットワーク上での分散最適化問題を, 最適化過程で定義された線形エッジ制約によって, 近隣ノードが徐々にコンセンサスに到達し, 反復的に解くために設計されている。特にPDMMの各イテレーションでは、ネットワークの各ノードがまず近隣から情報収集を行い、次にローカル情報融合を行う。高レベルの観点からは、$KQ$-softmax-based weighted summation of $V$-representations in Attentionは近隣の情報収集に対応し、一方、トランスフォーマーのフィードフォワードネットワーク(FFN)による特徴処理はローカル情報融合に対応している。 PDMMはラグランジアン乗算器を利用して、線形エッジ制約の残差エラーという形で歴史的コンセンサス差を捉え、アルゴリズムが収束するのに重要な役割を果たす。 PDMMにインスパイアされた我々は、標準注意の出力更新圧縮にコンセンサスの不一致を組み込むために、AttentionXを提案する。 AttentionXにおけるコンセンサスの違いは、$V$-representations と $V$-representions の重み付け和と、それ自身をスケールした$V$-representions との差を指す。 ViTおよびnanoGPTの実験は有望な性能を示した。

関連論文リスト

Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems [52.842088497389746]
この手紙は、悪意のあるジャマーの存在下での、アンチジャミングの協調推論システムに焦点を当てている。まず、ジャミングとDNNパーティショニングがデータ回帰による推測精度に与える影響を解析する。問題を3つのサブプロブレムに分解する,効率的な交互最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2026-03-03T03:52:52Z)
Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文参考訳（メタデータ） (2026-02-24T05:32:03Z)
Scalable Neural Incentive Design with Parameterized Mean-Field Approximation [28.20524168049273]
力学と報酬がリプシッツであるとき、有限$N$ ID の目標は、PMFG によって $mathscrO(frac1sqrtN)$ で近似されることを示す。さらに、反復平衡作用素の明示的な微分を利用して勾配を効率的に計算する、随伴平均集中設計(AMID)アルゴリズムを導入する。
論文参考訳（メタデータ） (2025-10-24T13:18:54Z)
Improved High-probability Convergence Guarantees of Decentralized SGD [74.39742894097348]
平均二乗誤差(MSE)と同じ条件下で,$mathttDSGD$がHPに収束することを示す。改良された分析によりユーザ数が線形アップし,$mathttDSGD$がHPの意味で性能を維持していることを示す。
論文参考訳（メタデータ） (2025-10-07T17:15:08Z)
Nonparametric Bellman Mappings for Value Iteration in Distributed Reinforcement Learning [3.5051814539447474]
本稿では,分散強化学習(DRL)における値反復(VI)のためのベルマン写像(B-Maps)を提案する。 B-マップは核ヒルベルト空間で表されるQ-函数で作用し、非パラメトリックな定式化を可能にする。 2つのよく知られた制御問題に関する数値実験は、提案した非パラメトリックB-マップの優れた性能を示す。
論文参考訳（メタデータ） (2025-03-20T14:39:21Z)
Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文参考訳（メタデータ） (2025-02-19T07:10:32Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Distribution Transformers: Fast Approximate Bayesian Inference With On-The-Fly Prior Adaptation [16.582778766729387]
本稿では,任意の分布-分布マッピングを学習可能な新しいアーキテクチャである分散トランスフォーマーを紹介する。提案手法は,あるデータセットに条件付きで,対応する後部への事前のマッピングを訓練することができる。我々は、配電変換器が事前の変動に柔軟性を保ち、時間帯を数分からミリ秒に短縮できることを実証した。
論文参考訳（メタデータ） (2025-02-04T16:33:12Z)
Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。このような修正により、一様かつ通常に分散した表現を学習できることを示す。その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文参考訳（メタデータ） (2024-10-09T15:40:04Z)
Uniform Transformation: Refining Latent Representation in Variational Autoencoders [7.4316292428754105]
本稿では,不規則な潜伏分布に対応するために,新しい適応型3段階一様変換(UT)モジュールを提案する。この手法は不規則分布を潜在空間の均一分布に再構成することにより、潜在表現の絡み合いと解釈可能性を大幅に向上させる。実験により,提案するUTモジュールの有効性を実証し,ベンチマークデータセット間の絡み合いの指標を改良した。
論文参考訳（メタデータ） (2024-07-02T21:46:23Z)
E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。 Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文参考訳（メタデータ） (2024-05-28T14:28:28Z)
Improved Communication-Privacy Trade-offs in $L_2$ Mean Estimation under Streaming Differential Privacy [47.997934291881414]
既存の平均推定スキームは、通常、$L_infty$幾何に最適化され、ランダムな回転や、$L$幾何に適応するカシンの表現に依存する。本稿では,スパシフィケーションに固有のランダム性をDPに組み込んだ,スパシフィケーションガウシアン機構の新たなプライバシ会計手法を提案する。従来の手法とは異なり、我々の会計アルゴリズムは直接$L$幾何で動作し、ガウスの機構に迅速に収束するMSEが得られる。
論文参考訳（メタデータ） (2024-05-02T03:48:47Z)
Implicit Bias and Fast Convergence Rates for Self-attention [30.08303212679308]
トランスフォーマーのコアメカニズムであるセルフアテンションは、従来のニューラルネットワークと区別し、その優れたパフォーマンスを駆動する。固定線形復号器をバイナリに固定した自己アテンション層をトレーニングする際の勾配降下(GD)の暗黙バイアスについて検討した。 W_t$ から $W_mm$ に対する最初の有限時間収束率と、注意写像のスペーサー化率を提供する。
論文参考訳（メタデータ） (2024-02-08T15:15:09Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
Distributed Variational Inference for Online Supervised Learning [15.038649101409804]
本稿では,スケーラブルな分散確率的推論アルゴリズムを提案する。センサネットワークにおける連続変数、難解な後部データ、大規模リアルタイムデータに適用できる。
論文参考訳（メタデータ） (2023-09-05T22:33:02Z)
Interpolation-based Correlation Reduction Network for Semi-Supervised Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文参考訳（メタデータ） (2022-06-06T14:26:34Z)
Sequential Information Design: Markov Persuasion Process and Its Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。 MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文参考訳（メタデータ） (2022-02-22T05:41:43Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Towards Plausible Differentially Private ADMM Based Distributed Machine Learning [27.730535587906168]
本稿では,PP-ADMM と IPP-ADMM という,可塑性差分ADMM アルゴリズムを提案する。同じプライバシ保証の下では、提案アルゴリズムはモデル精度と収束率の観点から、最先端技術である。
論文参考訳（メタデータ） (2020-08-11T03:40:55Z)
Patch-level Neighborhood Interpolation: A General and Effective Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文参考訳（メタデータ） (2019-11-21T06:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。