論文の概要: Window Attention is Bugged: How not to Interpolate Position Embeddings
- arxiv url: http://arxiv.org/abs/2311.05613v1
- Date: Thu, 9 Nov 2023 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:03:12.509047
- Title: Window Attention is Bugged: How not to Interpolate Position Embeddings
- Title(参考訳): ウィンドウの注意:どうやって位置埋め込みを補間しないか
- Authors: Daniel Bolya, Chaitanya Ryali, Judy Hoffman, Christoph Feichtenhofer
- Abstract要約: これらの3つのコンポーネント、すなわちHieraとViTDetを持つ最先端の2つの手法について検討し、どちらも実際にこのバグに悩まされていることを発見した。
これにより、Hieraのバグを完全に解決し、ViTDetにおけるモデルの速度と性能の両方を向上させることができる。
- 参考スコア(独自算出の注目度): 42.73257562492892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Window attention, position embeddings, and high resolution finetuning are
core concepts in the modern transformer era of computer vision. However, we
find that naively combining these near ubiquitous components can have a
detrimental effect on performance. The issue is simple: interpolating position
embeddings while using window attention is wrong. We study two state-of-the-art
methods that have these three components, namely Hiera and ViTDet, and find
that both do indeed suffer from this bug. To fix it, we introduce a simple
absolute window position embedding strategy, which solves the bug outright in
Hiera and allows us to increase both speed and performance of the model in
ViTDet. We finally combine the two to obtain HieraDet, which achieves 61.7 box
mAP on COCO, making it state-of-the-art for models that only use ImageNet-1k
pretraining. This all stems from what is essentially a 3 line bug fix, which we
name "absolute win".
- Abstract(参考訳): 窓の注意、位置埋め込み、高解像度の微調整は、現代のコンピュータビジョンのトランスフォーマー時代の中核概念である。
しかし,これらをユビキタスに組み合わせることで,性能に有害な影響が生じることが判明した。
ウィンドウアテンションを使用しながら位置埋め込みを補間することは間違っている。
これらの3つのコンポーネント、すなわちHieraとViTDetを持つ最先端の2つの手法を調査し、どちらも実際にこのバグに悩まされていることを発見した。
これにより、Hieraのバグを完全に解決し、ViTDetにおけるモデルの速度と性能の両方を向上させることができる。
これはcoco上で61.7のボックスマップを実現し、imagenet-1kプリトレーニングのみを使用するモデルでは最先端のものです。
これは、基本的には3行のバグ修正で、"絶対的な勝利"と名付けています。
関連論文リスト
- InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models [46.587906540660455]
InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いて導入する。
InViは、フレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-15T17:55:09Z) - Win-Win: Training High-Resolution Vision Transformers from Two Windows [15.38882406329146]
本稿では,高解像度ビジョントランスの効率的なトレーニングと推論のための新しい手法を提案する。
鍵となる原則は、トレーニング中の高解像度入力の大部分をマスクし、N個のランダムウィンドウだけを保持することである。
回転埋め込みなどの相対的な位置埋め込みを利用する場合,この戦略が有効であることを示す。
論文 参考訳(メタデータ) (2023-10-01T10:06:01Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - What Makes for Hierarchical Vision Transformer? [46.848348453909495]
Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3%と比較して80.5%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2021-07-05T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。