Fugu-MT 論文翻訳(概要): Value-aware Approximate Attention

論文の概要: Value-aware Approximate Attention

arxiv url: http://arxiv.org/abs/2103.09857v1
Date: Wed, 17 Mar 2021 18:43:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-20 08:15:23.163907
Title: Value-aware Approximate Attention
Title（参考訳）: Value-aware Approximate Attention
Authors: Ankit Gupta, Jonathan Berant
Abstract要約: 価値認識目的の最適近似は、値を無視した最適近似を実質的に上回ることを示す。また,注意の類似性を計算するためのカーネル関数の選択は,スパース近似の品質に大きく影響することを示した。
参考スコア（独自算出の注目度）: 34.33536446687287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. However, all approximations thus far have ignored the contribution of the $\textit{value vectors}$ to the quality of approximation. In this work, we argue that research efforts should be directed towards approximating the true output of the attention sub-layer, which includes the value vectors. We propose a value-aware objective, and show theoretically and empirically that an optimal approximation of a value-aware objective substantially outperforms an optimal approximation that ignores values, in the context of language modeling. Moreover, we show that the choice of kernel function for computing attention similarity can substantially affect the quality of sparse approximations, where kernel functions that are less skewed are more affected by the value vectors.
Abstract（参考訳）: 変圧器におけるドット製品注目の成功に続いて、入力長に関する二次複雑性に対処するために、最近多くの近似が提案されている。しかし、これまでの全ての近似は、近似の品質に対する$\textit{value vectors}$の寄与を無視している。本研究では,注目サブレイヤの真の出力,すなわち値ベクトルの近似に研究の取り組みを向けるべきであると主張する。本稿では,価値認識目標の最適近似が,言語モデリングの文脈において,価値を無視する最適近似を実質的に上回っていることを理論的および実証的に示す。さらに,注目度類似度を計算するためのカーネル関数の選択は,スキューの少ないカーネル関数が値ベクトルの影響を受けやすいスパース近似の品質に大きく影響することを示した。

関連論文リスト

Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文参考訳（メタデータ） (2024-05-26T12:25:09Z)
Enabling Uncertainty Estimation in Iterative Neural Networks [49.56171792062104]
本研究では,アンサンブルのような手法よりもはるかに低い計算コストで最先端の見積もりを提供する不確実性推定手法を開発する。航空画像における道路検出と2次元および3次元形状の空力特性の推定という2つの応用領域に組み込むことで,その実用的価値を実証する。
論文参考訳（メタデータ） (2024-03-25T13:06:31Z)
Optimal convex $M$-estimation via score matching [6.115859302936817]
実験的リスク最小化が回帰係数の下流推定における最適分散をもたらすデータ駆動凸損失関数を構築した。半パラメトリック手法は、雑音分布の対数密度の導関数の導関数の最も少ない近似を目標とする。
論文参考訳（メタデータ） (2024-03-25T12:23:19Z)
Proper Laplacian Representation Learning [15.508199129490068]
ラプラシアン表現を近似するための理論的に健全な目的とそれに対応する最適化アルゴリズムを導入する。これらの結果は,複数の環境にまたがる堅牢な学習に実証的に変換されることを示す。
論文参考訳（メタデータ） (2023-10-16T21:14:50Z)
Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文参考訳（メタデータ） (2023-06-13T01:18:16Z)
Bayesian Optimization of Function Networks [20.73717187683924]
本稿では,関数ネットワークの出力のベイジアン最適化,親ノードの出力の入力として各関数が要し,ネットワークの評価に要する時間について考察する。我々の手法は、前者が無視する情報、すなわちネットワーク内の中間出力を活用することにより、クエリ効率を向上する。提案手法は,いくつかの合成および実世界の問題において,標準的なベイズ最適化手法よりも劇的に優れていることを示す。
論文参考訳（メタデータ） (2021-12-31T05:35:21Z)
Regret Bounds for Gaussian-Process Optimization in Large Domains [40.92207267407271]
最適化戦略から得られる解の準最適性(ベイズ的単純後悔)の上限を与える。これらの後悔の境界は、評価の数、ドメインサイズ、および検索された関数値の最適性の関係を照らす。特に、評価の数が小さすぎて大域的な最適値が見つからなかったとしても、非自明な関数値を見つけることができる。
論文参考訳（メタデータ） (2021-04-29T05:19:03Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
Exploiting Higher Order Smoothness in Derivative-free Optimization and Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。予測勾配降下アルゴリズムのランダム化近似を考察する。その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-14T10:42:23Z)
Bayesian Optimization with Output-Weighted Optimal Sampling [0.0]
我々は、探索アルゴリズムを最小化すべき目的関数が異常に小さい値を仮定する入力空間の領域へ誘導する可能性比の利用を提唱する。この研究で導入された "likelihood-weighted" 取得関数は、多くのアプリケーションにおいて、その非重みのないものよりも優れていることが判明した。
論文参考訳（メタデータ） (2020-04-22T14:38:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。