論文の概要: Value-aware Approximate Attention
- arxiv url: http://arxiv.org/abs/2103.09857v1
- Date: Wed, 17 Mar 2021 18:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 08:15:23.163907
- Title: Value-aware Approximate Attention
- Title(参考訳): Value-aware Approximate Attention
- Authors: Ankit Gupta, Jonathan Berant
- Abstract要約: 価値認識目的の最適近似は、値を無視した最適近似を実質的に上回ることを示す。
また,注意の類似性を計算するためのカーネル関数の選択は,スパース近似の品質に大きく影響することを示した。
- 参考スコア(独自算出の注目度): 34.33536446687287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the success of dot-product attention in Transformers, numerous
approximations have been recently proposed to address its quadratic complexity
with respect to the input length. However, all approximations thus far have
ignored the contribution of the $\textit{value vectors}$ to the quality of
approximation. In this work, we argue that research efforts should be directed
towards approximating the true output of the attention sub-layer, which
includes the value vectors. We propose a value-aware objective, and show
theoretically and empirically that an optimal approximation of a value-aware
objective substantially outperforms an optimal approximation that ignores
values, in the context of language modeling. Moreover, we show that the choice
of kernel function for computing attention similarity can substantially affect
the quality of sparse approximations, where kernel functions that are less
skewed are more affected by the value vectors.
- Abstract(参考訳): 変圧器におけるドット製品注目の成功に続いて、入力長に関する二次複雑性に対処するために、最近多くの近似が提案されている。
しかし、これまでの全ての近似は、近似の品質に対する$\textit{value vectors}$の寄与を無視している。
本研究では,注目サブレイヤの真の出力,すなわち値ベクトルの近似に研究の取り組みを向けるべきであると主張する。
本稿では,価値認識目標の最適近似が,言語モデリングの文脈において,価値を無視する最適近似を実質的に上回っていることを理論的および実証的に示す。
さらに,注目度類似度を計算するためのカーネル関数の選択は,スキューの少ないカーネル関数が値ベクトルの影響を受けやすいスパース近似の品質に大きく影響することを示した。
関連論文リスト
- Proper Laplacian Representation Learning [17.42966166938087]
ラプラシアン表現を近似するための理論的に健全な目的とそれに対応する最適化アルゴリズムを導入する。
これらの結果は,複数の環境にまたがる堅牢な学習に実証的に変換されることを示す。
論文 参考訳(メタデータ) (2023-10-16T21:14:50Z) - Nonparametric active learning for cost-sensitive classification [2.1756081703276]
コスト依存型分類のための一般的な非パラメトリック能動学習アルゴリズムを設計する。
我々は、一致した(対数係数まで)下界を提供することにより、得られた上界のほぼ最適性を証明した。
論文 参考訳(メタデータ) (2023-09-30T22:19:21Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Should All Proposals be Treated Equally in Object Detection? [110.27485090952385]
オブジェクト検出器の複雑さと精度のトレードオフは、リソース制約されたビジョンタスクにとって重要な問題である。
検出効率の改善には、提案の不平等な処理に向けて、パラダイムシフトが必要であると仮定されている。
これにより、利用可能な計算予算がより有効になり、同じFLOPSの精度が向上する。
論文 参考訳(メタデータ) (2022-07-07T18:26:32Z) - Bayesian Optimization of Function Networks [20.73717187683924]
本稿では,関数ネットワークの出力のベイジアン最適化,親ノードの出力の入力として各関数が要し,ネットワークの評価に要する時間について考察する。
我々の手法は、前者が無視する情報、すなわちネットワーク内の中間出力を活用することにより、クエリ効率を向上する。
提案手法は,いくつかの合成および実世界の問題において,標準的なベイズ最適化手法よりも劇的に優れていることを示す。
論文 参考訳(メタデータ) (2021-12-31T05:35:21Z) - Regret Bounds for Gaussian-Process Optimization in Large Domains [40.92207267407271]
最適化戦略から得られる解の準最適性(ベイズ的単純後悔)の上限を与える。
これらの後悔の境界は、評価の数、ドメインサイズ、および検索された関数値の最適性の関係を照らす。
特に、評価の数が小さすぎて大域的な最適値が見つからなかったとしても、非自明な関数値を見つけることができる。
論文 参考訳(メタデータ) (2021-04-29T05:19:03Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Bayesian Optimization with Output-Weighted Optimal Sampling [0.0]
我々は、探索アルゴリズムを最小化すべき目的関数が異常に小さい値を仮定する入力空間の領域へ誘導する可能性比の利用を提唱する。
この研究で導入された "likelihood-weighted" 取得関数は、多くのアプリケーションにおいて、その非重みのないものよりも優れていることが判明した。
論文 参考訳(メタデータ) (2020-04-22T14:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。