Fugu-MT 論文翻訳(概要): Translational Equivariance in Kernelizable Attention

論文の概要: Translational Equivariance in Kernelizable Attention

arxiv url: http://arxiv.org/abs/2102.07680v1
Date: Mon, 15 Feb 2021 17:14:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 16:02:04.512244
Title: Translational Equivariance in Kernelizable Attention
Title（参考訳）: Kernelizable Attentionにおける翻訳等価性
Authors: Max Horn, Kumar Shridhar, Elrich Groenewald, Philipp F. M. Baumann
Abstract要約: 本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
参考スコア（独自算出の注目度）: 3.236198583140341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Transformer architectures have show remarkable success, they are bound to the computation of all pairwise interactions of input element and thus suffer from limited scalability. Recent work has been successful by avoiding the computation of the complete attention matrix, yet leads to problems down the line. The absence of an explicit attention matrix makes the inclusion of inductive biases relying on relative interactions between elements more challenging. An extremely powerful inductive bias is translational equivariance, which has been conjectured to be responsible for much of the success of Convolutional Neural Networks on image recognition tasks. In this work we show how translational equivariance can be implemented in efficient Transformers based on kernelizable attention - Performers. Our experiments highlight that the devised approach significantly improves robustness of Performers to shifts of input images compared to their naive application. This represents an important step on the path of replacing Convolutional Neural Networks with more expressive Transformer architectures and will help to improve sample efficiency and robustness in this realm.
Abstract（参考訳）: トランスフォーマーアーキテクチャは目覚ましい成功を収めているが、入力要素の全てのペアの相互作用の計算に縛られ、拡張性に制限がある。最近の研究は、完全な注意行列の計算を避けることで成功したが、問題は解決した。明示的な注意行列の欠如は、要素間の相対的な相互作用に依存する誘導バイアスの包含をより困難にします。非常に強力な誘導バイアスは、画像認識タスクにおけるConvolutional Neural Networksの成功の大部分を担っていると推測されている翻訳平衡である。本稿では,カーネル化可能な注意 - 実行者に基づく効率的なトランスフォーマにおいて,翻訳等価性をどのように実装できるかを示す。実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。これは畳み込みニューラルネットワークをより表現力のあるトランスフォーマーアーキテクチャに置き換える重要なステップであり、この領域におけるサンプル効率とロバスト性を改善するのに役立つ。

関連論文リスト

Exploring Kernel Transformations for Implicit Neural Representations [57.2225355625268]
入射神経表現(INR)は、ニューラルネットワークを利用して、対応する属性に座標をマッピングすることで、信号を表現する。この研究は、モデル自体を変更せずに入出力のカーネル変換の効果を探求する先駆者となった。我々の発見の副産物は、スケールとシフトを組み合わせて、INRを無視できないオーバーヘッドで著しく向上させる、単純で効果的な方法である。
論文参考訳（メタデータ） (2025-04-07T04:43:50Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Transformers Learn Low Sensitivity Functions: Investigations and Implications [18.77893015276986]
トランスフォーマーは多くのタスクで最先端の精度と堅牢性を達成する。入力におけるトークンのランダムな摂動に対するモデルの感度を統一計量として同定する。我々は、CNN、CNN、ConvMixers、LSTMよりも、視覚と言語の両方のタスクにおいて、トランスフォーマーの感度が低いことを示す。
論文参考訳（メタデータ） (2024-03-11T17:12:09Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。トランスにおける大きな埋め込み次元の必要性と役割を示す。また、注意層によって効率的に解ける自然変種も提示する。
論文参考訳（メタデータ） (2023-06-05T14:05:04Z)
Empowering Networks With Scale and Rotation Equivariance Using A Similarity Convolution [16.853711292804476]
翻訳, 回転, スケーリングに関して, 同時同値のCNNを実現する手法を考案する。提案手法は畳み込みのような動作を定義し,提案したスケーラブルなフーリエ・アーガン表現に基づいて等価性を保証する。画像分類作業におけるアプローチの有効性を検証し、その頑健さと、スケールされた入力と回転した入力の両方に対する一般化能力を示す。
論文参考訳（メタデータ） (2023-03-01T08:43:05Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
CETransformer: Casual Effect Estimation via Transformer Based Representation Learning [17.622007687796756]
データ駆動因果効果推定は、選択バイアスと反事実の欠如という2つの大きな課題に直面している。これら2つの問題に対処するため、既存のアプローチのほとんどは、バランスの取れた表現を学ぶことで選択バイアスを減らす傾向にある。本稿では,CETransformerモデルを用いて,変換器を用いた表現学習によるカジュアルエフェクト推定を提案する。
論文参考訳（メタデータ） (2021-07-19T09:39:57Z)
Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。 Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文参考訳（メタデータ） (2020-09-29T21:05:39Z)
Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文参考訳（メタデータ） (2020-02-16T17:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。