論文の概要: DPT: Deformable Patch-based Transformer for Visual Recognition
- arxiv url: http://arxiv.org/abs/2107.14467v1
- Date: Fri, 30 Jul 2021 07:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:01:48.221579
- Title: DPT: Deformable Patch-based Transformer for Visual Recognition
- Title(参考訳): DPT:視覚認識のための変形可能なパッチベース変換器
- Authors: Zhiyang Chen, Yousong Zhu, Chaoyang Zhao, Guosheng Hu, Wei Zeng,
Jinqiao Wang, Ming Tang
- Abstract要約: 本稿では,デフォルマブルパッチ (Deformable Patch) モジュールを提案する。デフォルマブルパッチ(Deformable Patch, DePatch)モジュールは,画像を異なる位置とスケールのパッチに適応的に分割し,データ駆動方式でスケールする。
DePatchモジュールはプラグイン・アンド・プレイモジュールとして動作し、異なるトランスフォーマーに簡単に組み込んでエンドツーエンドのトレーニングを実現することができる。
- 参考スコア(独自算出の注目度): 57.548916081146814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has achieved great success in computer vision, while how to split
patches in an image remains a problem. Existing methods usually use a
fixed-size patch embedding which might destroy the semantics of objects. To
address this problem, we propose a new Deformable Patch (DePatch) module which
learns to adaptively split the images into patches with different positions and
scales in a data-driven way rather than using predefined fixed patches. In this
way, our method can well preserve the semantics in patches. The DePatch module
can work as a plug-and-play module, which can easily be incorporated into
different transformers to achieve an end-to-end training. We term this
DePatch-embedded transformer as Deformable Patch-based Transformer (DPT) and
conduct extensive evaluations of DPT on image classification and object
detection. Results show DPT can achieve 81.9% top-1 accuracy on ImageNet
classification, and 43.7% box mAP with RetinaNet, 44.3% with Mask R-CNN on
MSCOCO object detection. Code has been made available at:
https://github.com/CASIA-IVA-Lab/DPT .
- Abstract(参考訳): Transformerはコンピュータビジョンにおいて大きな成功を収め、画像にパッチを分割する方法は依然として問題である。
既存のメソッドは通常固定サイズのパッチを埋め込んでおり、オブジェクトのセマンティクスを破壊する可能性がある。
この問題に対処するため,我々は,予め定義された固定パッチではなく,異なる位置とスケールのパッチに適応的に分割することを学習する,新しいdeformable patch (depatch)モジュールを提案する。
このようにして、本手法はパッチのセマンティクスを十分に保存することができる。
depatchモジュールはプラグアンドプレイモジュールとして動作し、さまざまなトランスフォーマーに容易に組み込んでエンドツーエンドのトレーニングを実現することができる。
本稿では,このデパッチ埋め込みトランスをDPT(Deformable Patch-based Transformer)と呼び,画像分類と物体検出におけるDPTの広範な評価を行う。
その結果、dptはimagenet分類で81.9%、retinanetで43.7%、mscocoオブジェクト検出でマスクr-cnnで44.3%のtop-1精度を達成できることがわかった。
コードはhttps://github.com/CASIA-IVA-Lab/DPTで公開されている。
関連論文リスト
- SKU-Patch: Towards Efficient Instance Segmentation for Unseen Objects in
Auto-Store [102.45729472142526]
大規模な倉庫では、精密なケースマスクがロボットのビンピッキングに欠かせない。
本稿では,新たなSKUに対して,いくつかのイメージパッチのみを活用するパッチ誘導型インスタンスセグメンテーションソリューションを提案する。
SKU-Patchは、ロボット支援自動ストアロジスティックパイプラインにおいて、50以上の見えないSKUに対して、平均して100%近い成功率を得る。
論文 参考訳(メタデータ) (2023-11-08T12:44:38Z) - DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文 参考訳(メタデータ) (2022-09-28T08:57:14Z) - Patcher: Patch Transformers with Mixture of Experts for Precise Medical
Image Segmentation [17.51577168487812]
医用画像セグメンテーションのためのエンコーダ・デコーダ・ビジョントランスフォーマーアーキテクチャPacherを提案する。
通常のVision Transformersとは異なり、イメージを大きなパッチに分割するPacherブロックを使用している。
トランスフォーマーは、大きなパッチ内の小さなパッチに適用され、各ピクセルの受信フィールドが制限される。
論文 参考訳(メタデータ) (2022-06-03T04:02:39Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Certified Patch Robustness via Smoothed Vision Transformers [77.30663719482924]
視覚変換器を用いることで、認証済みのパッチの堅牢性が大幅に向上することを示す。
これらの改善は、視覚変換器が主にマスクされた画像を優雅に扱う能力に起因している。
論文 参考訳(メタデータ) (2021-10-11T17:44:05Z) - Exploring and Improving Mobile Level Vision Transformers [81.7741384218121]
本稿では,移動体レベルでの視覚変換器の構造について検討し,劇的な性能低下を見出した。
本稿では,新しい不規則なパッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:42:49Z) - SimPatch: A Nearest Neighbor Similarity Match between Image Patches [0.0]
比較的小さなパッチではなく、大きなパッチを使って、各パッチにより多くの情報が含まれるようにしています。
特徴行列を構成する個々の画像パッチの特徴を抽出するために,異なる特徴抽出機構を用いる。
最寄りのパッチは、与えられた画像に対するクエリパッチに対して、2つの異なる近接アルゴリズムを用いて計算される。
論文 参考訳(メタデータ) (2020-08-07T10:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。