論文の概要: QKVA grid: Attention in Image Perspective and Stacked DETR
- arxiv url: http://arxiv.org/abs/2207.04313v1
- Date: Sat, 9 Jul 2022 18:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:01:07.445407
- Title: QKVA grid: Attention in Image Perspective and Stacked DETR
- Title(参考訳): qkvaグリッド: イメージパースペクティブとスタックed detrの注目
- Authors: Wenyuan Sheng
- Abstract要約: 本稿では,標準DETRの主要な概念を継承するStacked-DETR(SDETR)というモデルを提案する。
トレーニングコストの簡易化と,パフォーマンス向上のためのスタックアーキテクチャの導入という,DECを2つの方向に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new model named Stacked-DETR(SDETR), which inherits the main
ideas in canonical DETR. We improve DETR in two directions: simplifying the
cost of training and introducing the stacked architecture to enhance the
performance. To the former, we focus on the inside of the Attention block and
propose the QKVA grid, a new perspective to describe the process of attention.
By this, we can step further on how Attention works for image problems and the
effect of multi-head. These two ideas contribute the design of single-head
encoder-layer. To the latter, SDETR reaches great improvement(+1.1AP, +3.4APs)
to DETR. Especially to the performance on small objects, SDETR achieves better
results to the optimized Faster R-CNN baseline, which was a shortcoming in
DETR. Our changes are based on the code of DETR. Training code and pretrained
models are available at https://github.com/shengwenyuan/sdetr.
- Abstract(参考訳): 本稿では,標準DETRの主要な概念を継承するStacked-DETR(SDETR)というモデルを提案する。
トレーニングコストの簡易化と,パフォーマンス向上のためのスタックアーキテクチャの導入という,DECを2つの方向に改善する。
前者には、注意ブロックの内部に焦点をあて、注意のプロセスを記述するための新しい視点であるQKVAグリッドを提案する。
これにより、画像問題に対する注意の働き方や、マルチヘッドの効果をさらに深めることができる。
これら2つのアイデアは、シングルヘッドエンコーダ層の設計に寄与している。
後者では、SDETRはDETRに対して大きな改善(+1.1AP、+3.4AP)に達する。
SDETRは、特に小さなオブジェクトのパフォーマンスにおいて、最適化されたFaster R-CNNベースラインにより良い結果をもたらす。
私たちの変更はDETRのコードに基づいています。
トレーニングコードと事前トレーニングされたモデルはhttps://github.com/shengwenyuan/sdetr.comで入手できる。
関連論文リスト
- GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - MS-DETR: Efficient DETR Training with Mixed Supervision [74.93329653526952]
MS-DETRは、推論に使用されるプライマリデコーダのオブジェクトクエリを1対1で監視する。
このアプローチではデコーダのブランチやオブジェクトクエリを追加する必要はありません。
実験結果から,本手法はDETRの変種よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-08T16:08:53Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Enhancing Your Trained DETRs with Box Refinement [42.059326857270214]
本稿では,DETR型モデルにおける局所化問題に対する概念的,単純,効率的,汎用的な枠組みを提案する。
非効率に新しいモデルを設計し、スクラッチからトレーニングする代わりに、よく訓練されたモデルにプラグインを追加します。
RefineBoxと呼ばれるこの方法は、軽量な精細化ネットワークによってDETRライクな検出器の出力を洗練する。
論文 参考訳(メタデータ) (2023-07-21T18:01:40Z) - FeatAug-DETR: Enriching One-to-Many Matching for DETRs with Feature
Augmentation [48.94488166162821]
1対1のマッチングは、DETRのようなオブジェクト検出フレームワークにおいて重要な設計である。
画像や画像の特徴を拡大する異なる視点から一対一マッチングを実現する2つの手法を提案する。
提案手法の有効性を評価するため, 広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-02T18:59:48Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - Pair DETR: Contrastive Learning Speeds Up DETR Training [0.6491645162078056]
本稿では、DreTRの主な問題である緩やかな収束に対処するための簡単なアプローチを提案する。
2つのデコーダを用いて、一対のキーポイント、左上隅、中央としてオブジェクト境界ボックスを検出する。
実験により、Pair DETRは元のDETRより少なくとも10倍早く収束し、トレーニング中にConditional DETRより1.5倍速く収束できることが示された。
論文 参考訳(メタデータ) (2022-10-29T03:02:49Z) - Efficient Image Super-Resolution using Vast-Receptive-Field Attention [49.87316814164699]
注意機構は、高度な超解像(SR)ネットワークの設計において重要な役割を果たす。
本研究では,アテンション機構の改善により,効率的なSRネットワークを設計する。
VAst-receptive-field Pixel attention networkであるVapSRを提案する。
論文 参考訳(メタデータ) (2022-10-12T07:01:00Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Deformable DETR: Deformable Transformers for End-to-End Object Detection [41.050320861408046]
DETRは緩やかな収束と限られた特徴空間分解能に悩まされている。
Deformable DETRを提案し、注意モジュールは参照周辺のキーサンプリングポイントの小さなセットにしか対応しない。
変形可能なDETRは10倍のトレーニングエポックでDETRよりも優れたパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2020-10-08T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。