論文の概要: SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object
Detection with Transformers
- arxiv url: http://arxiv.org/abs/2303.08481v1
- Date: Wed, 15 Mar 2023 09:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:20:22.378635
- Title: SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object
Detection with Transformers
- Title(参考訳): SeqCo-DETR:変圧器を用いた自己監督対象検出のためのシーケンス一貫性トレーニング
- Authors: Guoqiang Jin, Fan Yang, Mingshan Sun, Ruyi Zhao, Yakun Liu, Wei Li,
Tianpeng Bao, Liwei Wu, Xingyu Zeng, Rui Zhao
- Abstract要約: 本稿では,SeqCo-DETRを提案する。SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,SeqCo-DETR,Sequence Consistency-based self-supervised method for object DEtection with TRansformersを提案する。
提案手法は,MS COCO (45.8 AP) とPASCAL VOC (64.1 AP) の最先端化を実現し,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 18.803007408124156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training and transformer-based networks have
significantly improved the performance of object detection. However, most of
the current self-supervised object detection methods are built on
convolutional-based architectures. We believe that the transformers' sequence
characteristics should be considered when designing a transformer-based
self-supervised method for the object detection task. To this end, we propose
SeqCo-DETR, a novel Sequence Consistency-based self-supervised method for
object DEtection with TRansformers. SeqCo-DETR defines a simple but effective
pretext by minimizes the discrepancy of the output sequences of transformers
with different image views as input and leverages bipartite matching to find
the most relevant sequence pairs to improve the sequence-level self-supervised
representation learning performance. Furthermore, we provide a mask-based
augmentation strategy incorporated with the sequence consistency strategy to
extract more representative contextual information about the object for the
object detection task. Our method achieves state-of-the-art results on MS COCO
(45.8 AP) and PASCAL VOC (64.1 AP), demonstrating the effectiveness of our
approach.
- Abstract(参考訳): 自己教師付き事前学習とトランスフォーマーベースのネットワークは、オブジェクト検出の性能を大幅に改善した。
しかし、現在の自己教師型オブジェクト検出手法のほとんどは畳み込み型アーキテクチャで構築されている。
オブジェクト検出タスクに対してトランスをベースとした自己教師型手法を設計する場合,トランスフォーマーのシーケンス特性を考慮すべきである。
そこで本研究では,TRアンスフォーマを用いたオブジェクト検出のためのSeqCo-DETRを提案する。
SeqCo-DETRは、入力として異なるイメージビューを持つ変換器の出力シーケンスの差を最小限に抑え、最も関連性の高いシーケンスペアを見つけるためにバイパーティイトマッチングを活用し、シーケンスレベルの自己教師付き表現学習性能を向上させることで、単純だが効果的なプリテキストを定義する。
さらに、シーケンス整合性戦略を組み込んだマスクベースの拡張戦略を提供し、オブジェクト検出タスクのオブジェクトに関するより代表的なコンテキスト情報を抽出する。
提案手法は,MS COCO (45.8 AP) とPASCAL VOC (64.1 AP) を併用し,本手法の有効性を示す。
関連論文リスト
- MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven
Tiered Structure [3.6194127685460553]
モビリティを意識したトランスフォーマー駆動構造(MASSFormer)をベースとした協調センシング手法を開発した。
本稿では,モバイルプライマリユーザ(PU)とセカンダリユーザ(SU)の動的シナリオについて考察する。
提案手法は, 堅牢性を示すために, 不完全な報告チャネルのシナリオ下で試験される。
論文 参考訳(メタデータ) (2024-09-26T05:25:25Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection [11.928724924319138]
変換器のHOI検出を改善するために,クロスパス整合性学習(CPC)を提案する。
提案手法の有効性を実証し, V-COCO, HICO-DETを改良した。
論文 参考訳(メタデータ) (2022-04-11T02:45:00Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。