論文の概要: Localformer: a Locality-Preserving Vision Transformer
- arxiv url: http://arxiv.org/abs/2202.10240v5
- Date: Sun, 23 Apr 2023 11:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 00:44:08.094675
- Title: Localformer: a Locality-Preserving Vision Transformer
- Title(参考訳): Localformer: ローカル保存型ビジョントランス
- Authors: Qingsong Zhao, Zhipeng Zhou, Yi Wang, Yu Qiao, Cairong Zhao
- Abstract要約: Zigzag flattening (ZF) は、コンピュータビジョンにおいて行列を展開するためのデフォルトオプションとして一般的に使用される。
視覚モデルに代わるHilbert flattening (HF) について検討する。
我々は、視覚変換器(ViT)の浅い層における局所性バイアスの欠如の問題を軽減するためにHFを利用する。
- 参考スコア(独自算出の注目度): 42.1069073073601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zigzag flattening (ZF) is commonly used in computer vision as a default
option to unfold matrices, \eg in patch slicing for Vision Transformer (ViT).
However, when decomposing multi-scale-object web images, ZF cannot preserve the
smoothness of local information well. To address this, we draw inspiration from
Space-Filling Curves (SFC) and investigate Hilbert flattening (HF) as an
alternative for visual models. We provide a comprehensive theoretical
discussion and practical analysis, demonstrating the superiority of HF over
other SFC in locality and multi-scale robustness. We leverage HF to alleviate
the problem of the lack of locality bias in the shallow layers of ViT, which
formulates our Localformer. Extensive experiments demonstrate that Localformer
consistently improves performance for several common visual tasks.
Additionally, upon inspection, we find that Localformer enhances representation
learning and length extrapolation abilities of ViT.
- Abstract(参考訳): Zigzag flattening (ZF) は、コンピュータビジョンにおいて、ViT(Vision Transformer)のパッチスライシングにおいて、行列を展開するためのデフォルトオプションとして一般的に使用される。
しかし、マルチスケールオブジェクトのWebイメージを分解する場合、ZFはローカル情報の滑らかさをよく維持できない。
これを解決するために、スペースフィリング曲線(SFC)からインスピレーションを得て、視覚モデルの代替としてヒルベルト平坦化(HF)を調査する。
局所性とマルチスケールロバスト性において他のSFCよりもHFの方が優れていることを示す総合的な理論的議論と実践的分析を提供する。
我々はHFを利用して、VTの浅い層における局所性バイアスの欠如の問題を緩和し、ローカルフォーマーを定式化する。
大規模な実験では、Localformerはいくつかの一般的な視覚タスクのパフォーマンスを一貫して改善している。
さらに,検査の結果,LocalformerはViTの表現学習と長さ外挿能力を向上させることがわかった。
関連論文リスト
- Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - Projected Randomized Smoothing for Certified Adversarial Robustness [9.771011198361865]
ランダム化平滑化(Randomized smoothing)は、証明可能な堅牢な分類器を生成する最先端の手法である。
近年の研究では、異なる標準球や異方性領域に対する証明可能な堅牢性が一般化されている。
提案手法は, 最先端の精度を桁違いに向上することを示す。
論文 参考訳(メタデータ) (2023-09-25T01:12:55Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - GraphFit: Learning Multi-scale Graph-Convolutional Representation for
Point Cloud Normal Estimation [31.40738037512243]
本研究では,非構造3次元点雲の高精度かつ効率的な正規推定法を提案する。
我々は、より局所的な近傍幾何学を強調する正規推定のためのグラフ畳み込み特徴表現を学習する。
提案手法は,様々なベンチマークデータセットにおいて,最先端の精度で競合より優れる。
論文 参考訳(メタデータ) (2022-07-23T10:29:26Z) - ReF -- Rotation Equivariant Features for Local Feature Matching [30.459559206664427]
本稿では,モデルアーキテクチャ自体に偏りを生じさせ,回転特異な特徴を生じさせる代替的補完的手法を提案する。
我々は, ステアブルCNNの高性能, 回転特異的カバレッジを全回転角に拡張できることを実証した。
本稿では,アンサンブル,ロバストな推定,ネットワークアーキテクチャのバリエーション,回転前処理の効果について詳細に分析する。
論文 参考訳(メタデータ) (2022-03-10T07:36:09Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Graph Convolution with Low-rank Learnable Local Filters [32.00396411583352]
本稿では,学習可能な低ランク局所フィルタを用いた新しいグラフ畳み込み手法を提案する。
従来のスペクトルグラフ畳み込み法よりも明らかに表現力が高い。
入力グラフデータに対する表現は理論的に証明され、グラフフィルタの局所性と局所グラフの正規化を利用する。
論文 参考訳(メタデータ) (2020-08-04T20:34:59Z) - ProAlignNet : Unsupervised Learning for Progressively Aligning Noisy
Contours [12.791313859673187]
ProAlignNetは、輪郭形状間の大規模なミスアライメントと複雑な変換を説明できる。
近接感度および局所形状依存類似度測定値の上界から導出される新しい損失関数を用いて学習する。
実世界の2つの応用において、提案したモデルは最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2020-05-23T14:56:14Z) - Neural Subdivision [58.97214948753937]
本稿では,データ駆動型粗粒度モデリングの新しいフレームワークであるNeural Subdivisionを紹介する。
すべてのローカルメッシュパッチで同じネットワーク重みのセットを最適化するため、特定の入力メッシュや固定属、カテゴリに制約されないアーキテクチャを提供します。
単一の高分解能メッシュでトレーニングしても,本手法は新規な形状に対して合理的な区分を生成する。
論文 参考訳(メタデータ) (2020-05-04T20:03:21Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。