論文の概要: PnP-DETR: Towards Efficient Visual Analysis with Transformers
- arxiv url: http://arxiv.org/abs/2109.07036v1
- Date: Wed, 15 Sep 2021 01:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:01:53.043320
- Title: PnP-DETR: Towards Efficient Visual Analysis with Transformers
- Title(参考訳): PnP-DETR:変換器を用いた効率的な視覚解析を目指して
- Authors: Tao Wang, Li Yuan, Yunpeng Chen, Jiashi Feng, Shuicheng Yan
- Abstract要約: 近年、DETRcitecarion Trainendは、トランスフォーマーを用いた視覚計算タスクのソリューションを開拓し、画像マップを直接オブジェクト結果に変換する。
有効ではあるが、背景のようないくつかの領域で計算が冗長になるため、フル機能マップの翻訳はコストがかかる可能性がある。
本研究では,より効率的なベクトルを適応的に割り当てるエンドツーエンドのDETアーキテクチャを構築する。
- 参考スコア(独自算出の注目度): 146.55679348493587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, DETR~\cite{carion2020end} pioneered the solution of vision tasks
with transformers, it directly translates the image feature map into the object
detection result. Though effective, translating the full feature map can be
costly due to redundant computation on some area like the background. In this
work, we encapsulate the idea of reducing spatial redundancy into a novel poll
and pool (PnP) sampling module, with which we build an end-to-end PnP-DETR
architecture that adaptively allocates its computation spatially to be more
efficient. Concretely, the PnP module abstracts the image feature map into fine
foreground object feature vectors and a small number of coarse background
contextual feature vectors. The transformer models information interaction
within the fine-coarse feature space and translates the features into the
detection result. Moreover, the PnP-augmented model can instantly achieve
various desired trade-offs between performance and computation with a single
model by varying the sampled feature length, without requiring to train
multiple models as existing methods. Thus it offers greater flexibility for
deployment in diverse scenarios with varying computation constraint. We further
validate the generalizability of the PnP module on \textbf{panoptic
segmentation} and the recent transformer-based image recognition model
{\textbf{ViT}}~\cite{dosovitskiy2020image} and show consistent efficiency gain.
We believe our method makes a step for efficient visual analysis with
transformers, wherein spatial redundancy is commonly observed. Code will be
available at \url{https://github.com/twangnh/pnp-detr}.
- Abstract(参考訳): 近年、DETR~\cite{carion2020end} はトランスフォーマーを用いた視覚タスクの解法を開拓し、画像特徴写像を直接オブジェクト検出結果に変換する。
有効ではあるが、背景のような領域で冗長な計算を行うため、フル機能マップの翻訳はコストがかかる可能性がある。
本研究では,空間的冗長性を削減するという考え方を新しいpnpサンプリングモジュールにカプセル化し,その計算を空間的に適応的に割り当ててより効率的にするエンドツーエンドのpnp-detrアーキテクチャを構築する。
具体的には、PnPモジュールは画像特徴マップを微細な前景オブジェクト特徴ベクトルと、少数の粗い背景背景特徴ベクトルに抽象化する。
トランスフォーマーは、細粒度特徴空間内の情報相互作用をモデル化し、特徴を検出結果に変換する。
さらに、PnP拡張モデルは、既存の手法として複数のモデルを訓練することなく、サンプル特徴長を変化させることにより、単一モデルによる性能と計算の間の様々なトレードオフを即座に達成することができる。
これにより、さまざまな計算制約のあるさまざまなシナリオでのデプロイメントの柔軟性が向上する。
さらに、PnP モジュールの \textbf{panoptic segmentation} 上の一般化性と、最近の変換器ベース画像認識モデル {\textbf{ViT}}~\cite{dosovitskiy2020image} の一般化性を検証し、一貫した効率向上を示す。
我々は,この手法が,空間冗長性をよく観察するトランスフォーマーを用いた効率的な視覚解析のステップとなると信じている。
コードは \url{https://github.com/twangnh/pnp-detr}で入手できる。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Time-Space Transformers for Video Panoptic Segmentation [3.2489082010225494]
画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
論文 参考訳(メタデータ) (2022-10-07T13:30:11Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。