論文の概要: Visual Transformer for Object Detection
- arxiv url: http://arxiv.org/abs/2206.06323v1
- Date: Wed, 1 Jun 2022 06:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 23:35:46.016913
- Title: Visual Transformer for Object Detection
- Title(参考訳): 物体検出のための視覚変換器
- Authors: Michael Yang
- Abstract要約: 我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural networks (CNN) have been the first choice of paradigm in
many computer vision applications. The convolution operation however has a
significant weakness which is it only operates on a local neighborhood of
pixels, thus it misses global information of the surrounding neighbors.
Transformers, or Self-attention networks to be more specific, on the other
hand, have emerged as a recent advance to capture long range interactions of
the input, but they have mostly been applied to sequence modeling tasks such as
Neural Machine Translation, Image captioning and other Natural Language
Processing tasks. Transformers has been applied to natural language related
tasks and achieved promising results. However, its applications in visual
related tasks are far from being satisfying. Taking into consideration of both
the weaknesses of Convolutional Neural Networks and those of the Transformers,
in this paper, we consider the use of self-attention for discriminative visual
tasks, object detection, as an alternative to convolutions. In this paper, we
propose our model: DetTransNet. Extensive experiments show that our model leads
to consistent improvements in object detection on COCO across many different
models and scales, including ResNets, while keeping the number of parameters
similar. In particular, our method achieves a 1.2% Average Precision
improvement on COCO object detection task over other baseline models.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションにおいて最初のパラダイム選択である。
しかし、畳み込み操作は、ピクセルの局所的な近傍でのみ動作するという重大な弱点があるため、周辺地域のグローバルな情報を見逃している。
一方、トランスフォーマーや自己認識ネットワークは、入力の長距離相互作用を捉えるための最近の進歩として登場したが、それらは主に、ニューラルネットワークの翻訳、画像キャプション、その他の自然言語処理タスクのようなシーケンスモデリングタスクに応用されている。
トランスフォーマーは自然言語関連のタスクに適用され、有望な結果を得た。
しかし、視覚関連タスクにおけるその応用は満足には程遠い。
本稿では,畳み込みニューラルネットワークの弱点とトランスフォーマーの弱点の両方を考慮することで,畳み込みの代替として,認知的視覚課題や物体検出に自己照準を用いることを検討する。
本稿では,このモデルである dettransnet を提案する。
大規模な実験により、我々のモデルは、ResNetsを含む多くの異なるモデルとスケールでCOCOのオブジェクト検出を一貫して改善し、パラメータの数を同じに保ちます。
特に,本手法は,COCOオブジェクト検出タスクにおいて,他のベースラインモデルよりも平均1.2%精度の向上を実現する。
関連論文リスト
- A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection [33.30644598646274]
視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:28Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。