論文の概要: Sequence and Circle: Exploring the Relationship Between Patches
- arxiv url: http://arxiv.org/abs/2210.09871v2
- Date: Wed, 19 Oct 2022 15:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:28:14.521285
- Title: Sequence and Circle: Exploring the Relationship Between Patches
- Title(参考訳): sequenceとcircle: パッチ間の関係を探求する
- Authors: Zhengyang Yu, Jochen Triesch
- Abstract要約: ビジョントランス (ViT) は様々なビジョンタスクにおいて最先端の結果を得た。
学習可能な位置埋め込み機構を使用して、各イメージパッチの位置を符号化する。
本稿では,個々のパッチの位置を符号化する2つの方法について検討する。
- 参考スコア(独自算出の注目度): 4.974890682815778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vision transformer (ViT) has achieved state-of-the-art results in various
vision tasks. It utilizes a learnable position embedding (PE) mechanism to
encode the location of each image patch. However, it is presently unclear if
this learnable PE is really necessary and what its benefits are. This paper
explores two alternative ways of encoding the location of individual patches
that exploit prior knowledge about their spatial arrangement. One is called the
sequence relationship embedding (SRE), and the other is called the circle
relationship embedding (CRE). Among them, the SRE considers all patches to be
in order, and adjacent patches have the same interval distance. The CRE
considers the central patch as the center of the circle and measures the
distance of the remaining patches from the center based on the four
neighborhoods principle. Multiple concentric circles with different radii
combine different patches. Finally, we implemented these two relations on three
classic ViTs and tested them on four popular datasets. Experiments show that
SRE and CRE can replace PE to reduce the random learnable parameters while
achieving the same performance. Combining SRE or CRE with PE gets better
performance than only using PE.
- Abstract(参考訳): 視覚変換器(ViT)は様々な視覚タスクにおいて最先端の結果を得た。
学習可能な位置埋め込み(PE)機構を使用して、各イメージパッチの位置を符号化する。
しかし,この学習可能なPEが本当に必要か,どのようなメリットがあるのかは現時点では不明である。
本稿では,空間配置に関する事前知識を活かした個々のパッチの位置を符号化する2つの方法を提案する。
1つは順序関係埋め込み (sre) と呼ばれ、もう1つは円関係埋め込み (cre) と呼ばれる。
このうち、SREはすべてのパッチを順に考慮し、隣接するパッチは同じ間隔を持つ。
CREは中央パッチを円の中心とみなし、残りのパッチと中央の距離を4つの地区の原理に基づいて測定している。
異なる半径を持つ複数の同心円は異なるパッチを組み合わせる。
最後に、これらの2つの関係を3つの古典的なViTで実装し、4つの一般的なデータセットでテストした。
実験により、sre と cre は同じ性能を達成しながらランダム学習可能なパラメータを減らすために pe を置換できることが示されている。
SRE や CRE と PE を組み合わせることで,PE の使用よりもパフォーマンスが向上する。
関連論文リスト
- Target before Shooting: Accurate Anomaly Detection and Localization
under One Millisecond via Cascade Patch Retrieval [49.45246833329707]
異常検出(AD)の「マッチング」性を再検討する
本稿では,ADの精度と実行速度を同時に向上する新しいADフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-13T11:49:05Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - PATS: Patch Area Transportation with Subdivision for Local Feature
Matching [78.67559513308787]
局所特徴マッチングは、一対のイメージ間のスパース対応を確立することを目的としている。
この問題に対処するために,PATS(Patch Area Transportation with Subdivision)を提案する。
PATSは、マッチング精度とカバレッジの両方を改善し、下流タスクにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-14T08:28:36Z) - Sparse Local Patch Transformer for Robust Face Alignment and Landmarks
Inherent Relation Learning [11.150290581561725]
固有関係を学習するためのスパース局所パッチ変換器(S)を提案する。
提案手法は計算量が少なくて最先端のレベルで機能する。
論文 参考訳(メタデータ) (2022-03-13T01:15:23Z) - End-to-End Segmentation via Patch-wise Polygons Prediction [93.91375268580806]
先頭のセグメンテーション法は、出力マップをピクセルグリッドとして表現する。
画像パッチ毎に対象のエッジがモデル化される別の表現を、パッチごとのラベル確率と結合した$k$の頂点を持つポリゴンとして検討する。
論文 参考訳(メタデータ) (2021-12-05T10:42:40Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - Duplex Contextual Relation Network for Polyp Segmentation [19.509290186267396]
画像内および画像間コンテキスト間関係をキャプチャする二重文脈関係ネットワーク(dcrnet)を提案する。
提案手法をEndoScene, Kvasir-SEG, 最近リリースされた大規模PICCOLOデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-11T15:19:54Z) - SimPatch: A Nearest Neighbor Similarity Match between Image Patches [0.0]
比較的小さなパッチではなく、大きなパッチを使って、各パッチにより多くの情報が含まれるようにしています。
特徴行列を構成する個々の画像パッチの特徴を抽出するために,異なる特徴抽出機構を用いる。
最寄りのパッチは、与えられた画像に対するクエリパッチに対して、2つの異なる近接アルゴリズムを用いて計算される。
論文 参考訳(メタデータ) (2020-08-07T10:51:10Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。