Fugu-MT 論文翻訳(概要): Static Key Attention in Vision

論文の概要: Static Key Attention in Vision

arxiv url: http://arxiv.org/abs/2412.07049v1
Date: Mon, 09 Dec 2024 23:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.162256
Title: Static Key Attention in Vision
Title（参考訳）: 視覚における静的キーアテンション
Authors: Zizhao Hu, Xiaolin Zhou, Mohammad Rostami,
Abstract要約: 視覚変換器の標準アテンション機構において,動的パラメータ化キーと静的キーとを置換した場合の影響について検討する。以上の結果から,静的キーアテンション機構は,通常の自己注意機能と一致したり,超えたりする可能性が示唆された。
参考スコア（独自算出の注目度）: 19.014373531742297
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The success of vision transformers is widely attributed to the expressive power of their dynamically parameterized multi-head self-attention mechanism. We examine the impact of substituting the dynamic parameterized key with a static key within the standard attention mechanism in Vision Transformers. Our findings reveal that static key attention mechanisms can match or even exceed the performance of standard self-attention. Integrating static key attention modules into a Metaformer backbone, we find that it serves as a better intermediate stage in hierarchical hybrid architectures, balancing the strengths of depth-wise convolution and self-attention. Experiments on several vision tasks underscore the effectiveness of the static key mechanism, indicating that the typical two-step dynamic parameterization in attention can be streamlined to a single step without impacting performance under certain circumstances.
Abstract（参考訳）: 視覚変換器の成功は、動的パラメータ化マルチヘッド自己保持機構の表現力に大きく影響している。視覚変換器の標準アテンション機構において,動的パラメータ化キーと静的キーとを置換した場合の影響について検討する。以上の結果から,静的キーアテンション機構は,通常の自己注意機能と一致したり,超えたりする可能性が示唆された。静的キーアテンションモジュールをMetaformerのバックボーンに統合することで、階層型ハイブリッドアーキテクチャにおいて、より優れた中間段階として機能し、奥行き的な畳み込みと自己注意の強みのバランスをとることができる。いくつかの視覚タスクの実験では、静的キー機構の有効性が示されており、特定の状況下での性能に影響を与えることなく、注意すべき2ステップの動的パラメータ化を単一のステップに合理化できることが示されている。

関連論文リスト

Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文参考訳（メタデータ） (2025-03-21T00:48:31Z)
Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10～15%向上させる結果を得た。
論文参考訳（メタデータ） (2024-10-12T18:58:45Z)
DualAD: Disentangling the Dynamic and Static World for End-to-End Driving [11.379456277711379]
自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。動的エージェントと静的シーン要素を分離する専用表現を提案する。 DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
論文参考訳（メタデータ） (2024-06-10T13:46:07Z)
Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文参考訳（メタデータ） (2024-01-03T13:58:35Z)
On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文参考訳（メタデータ） (2023-10-19T12:18:24Z)
Accelerating Vision Transformers Based on Heterogeneous Attention Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文参考訳（メタデータ） (2023-10-11T17:09:19Z)
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。 DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文参考訳（メタデータ） (2023-09-04T08:26:47Z)
Stabilizing Transformer Training by Preventing Attention Entropy Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文参考訳（メタデータ） (2023-03-11T03:30:47Z)
Adaptive Sparse and Monotonic Attention for Transformer-based Automatic Speech Recognition [32.45255303465946]
本稿では,Transformer ベースの ASR にスパースアテンションとモノトニックアテンションを導入する。提案手法は,広く使用されている音声認識のベンチマークにおいて,注意機構を効果的に改善できることを示す。
論文参考訳（メタデータ） (2022-09-30T01:55:57Z)
Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文参考訳（メタデータ） (2022-04-26T17:16:32Z)
Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文参考訳（メタデータ） (2022-03-11T13:48:11Z)
Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文参考訳（メタデータ） (2021-10-25T00:54:57Z)
Armour: Generalizable Compact Self-Attention for Vision Transformers [0.0]
本稿では, 基本的かつ高度に一般化可能な, コンパクトな自己認識機構を提案する。本稿では,視覚変換器における通常の注意機構と最近の変種の両方に適用可能性を示す。
論文参考訳（メタデータ） (2021-08-03T22:33:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。