論文の概要: Towards Data-Efficient Detection Transformers
- arxiv url: http://arxiv.org/abs/2203.09507v2
- Date: Mon, 21 Mar 2022 16:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 11:11:30.354115
- Title: Towards Data-Efficient Detection Transformers
- Title(参考訳): データ効率の高い検出変圧器に向けて
- Authors: Wen Wang, Jing Zhang, Yang Cao, Yongliang Shen, Dacheng Tao
- Abstract要約: 我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
- 参考スコア(独自算出の注目度): 77.43470797296906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection Transformers have achieved competitive performance on the
sample-rich COCO dataset. However, we show most of them suffer from significant
performance drops on small-size datasets, like Cityscapes. In other words, the
detection transformers are generally data-hungry. To tackle this problem, we
empirically analyze the factors that affect data efficiency, through a
step-by-step transition from a data-efficient RCNN variant to the
representative DETR. The empirical results suggest that sparse feature sampling
from local image areas holds the key. Based on this observation, we alleviate
the data-hungry issue of existing detection transformers by simply alternating
how key and value sequences are constructed in the cross-attention layer, with
minimum modifications to the original models. Besides, we introduce a simple
yet effective label augmentation method to provide richer supervision and
improve data efficiency. Experiments show that our method can be readily
applied to different detection transformers and improve their performance on
both small-size and sample-rich datasets. Code will be made publicly available
at \url{https://github.com/encounter1997/DE-DETRs}.
- Abstract(参考訳): 検出トランスフォーマーは、サンプルリッチCOCOデータセット上での競合性能を達成した。
しかし、そのほとんどが、cityscapesのような小規模データセットのパフォーマンス低下に苦しんでいる。
言い換えれば、検出トランスは一般的にデータハングリーである。
この問題を解決するために、データ効率のRCNN変種から代表DETRへのステップバイステップ移行を通じて、データ効率に影響を与える要因を経験的に分析する。
実験結果から,局所画像領域からのスパース特徴サンプリングが鍵となることが示唆された。
本研究は,既存の検出変換器のデータ・ハングリー問題に対して,キーと値の配列がどのように構成されているかを簡単に変更し,元のモデルに最小限の変更を加えて緩和するものである。
さらに,よりリッチな監視とデータ効率の向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
実験により,本手法は異なる検出変換器に容易に適用でき,小型およびサンプルリッチなデータセットの性能を向上させることができることがわかった。
コードは \url{https://github.com/encounter 1997/DE-DETRs} で公開される。
関連論文リスト
- Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com [1.6702285371066043]
自己監視学習(SSL)によって強化されたトランスフォーマーベースのニューラルネットワークは、さまざまなドメインで前例のないパフォーマンスを示している。
本稿では,電子商取引における典型的な課題である不正検出において,表型変換器を用いたGBDTに挑戦することを目的とする。
我々の手法はトランスフォーマーの能力を利用して、SSLを使ってすべての利用可能なデータを使って転送可能な表現を学習する。
提案手法は、平均精度(AP)スコアのかなりのマージンで、調整されたGBDTよりも優れている。
論文 参考訳(メタデータ) (2024-05-22T14:38:48Z) - Bridging Sensor Gaps via Attention Gated Tuning for Hyperspectral Image Classification [9.82907639745345]
HSI分類法は高品質なラベル付きHSIを必要とするが、しばしば入手するのにコストがかかる。
本稿では,3重構造トランスモデルであるTri-Formerを提案する。
論文 参考訳(メタデータ) (2023-09-22T13:39:24Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - TransFace: Calibrating Transformer Training for Face Recognition from a
Data-Centric Perspective [40.521854111639094]
視覚変換器(ViT)は、その本質的なデータ・ハングリーの性質により、様々な視覚タスクにおいて強力な表現能力を示す。
しかし、非常に大きなデータセットを持つ顔認識(FR)のシナリオに適用すると、予期せぬ結果が得られます。
本稿では,DPAPというパッチレベルのデータ拡張戦略とEHSMというハードサンプルマイニング戦略を併用した,TransFaceと呼ばれる優れたFRモデルを提案する。
論文 参考訳(メタデータ) (2023-08-20T02:02:16Z) - Remote Sensing Change Detection With Transformers Trained from Scratch [62.96911491252686]
トランスフォーマーベースの変更検出(CD)アプローチでは、大規模なイメージ分類でトレーニングされた事前トレーニングモデルを使用するか、別のCDデータセットで最初の事前トレーニングを頼りにしてから、ターゲットのベンチマークを微調整する。
我々は、4つの公開ベンチマークにおいて、スクラッチからトレーニングされながら最先端のパフォーマンスを実現するトランスフォーマーを用いたエンドツーエンドCDアプローチを開発した。
論文 参考訳(メタデータ) (2023-04-13T17:57:54Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Change Detection from Synthetic Aperture Radar Images via Graph-Based
Knowledge Supplement Network [36.41983596642354]
画像変化検出のためのグラフベースの知識補足ネットワーク(GKSNet)を提案する。
より具体的には、既存のラベル付きデータセットから識別情報を付加的な知識として抽出する。
提案手法を検証するために,4つのSARデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-01-22T02:50:50Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。