論文の概要: Few-Shot Object Detection with Fully Cross-Transformer
- arxiv url: http://arxiv.org/abs/2203.15021v1
- Date: Mon, 28 Mar 2022 18:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:40:27.619026
- Title: Few-Shot Object Detection with Fully Cross-Transformer
- Title(参考訳): 完全クロストランスを用いたFew-Shotオブジェクト検出
- Authors: Guangxing Han, Jiawei Ma, Shiyuan Huang, Long Chen, Shih-Fu Chang
- Abstract要約: Few-shot Object Detection (FSOD) は、ごく少数のトレーニング例を用いて、新しいオブジェクトを検出することを目的としている。
本稿では,機能バックボーンと検出ヘッドの両方にクロストランスフォーマーを組み込むことにより,FSODのための新しいFCTモデルを提案する。
本モデルでは,複数レベルのインタラクションを導入することにより,2つのブランチ間の数ショットの類似性学習を改善することができる。
- 参考スコア(独自算出の注目度): 35.49840687007507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot object detection (FSOD), with the aim to detect novel objects using
very few training examples, has recently attracted great research interest in
the community. Metric-learning based methods have been demonstrated to be
effective for this task using a two-branch based siamese network, and calculate
the similarity between image regions and few-shot examples for detection.
However, in previous works, the interaction between the two branches is only
restricted in the detection head, while leaving the remaining hundreds of
layers for separate feature extraction. Inspired by the recent work on vision
transformers and vision-language transformers, we propose a novel Fully
Cross-Transformer based model (FCT) for FSOD by incorporating cross-transformer
into both the feature backbone and detection head. The asymmetric-batched
cross-attention is proposed to aggregate the key information from the two
branches with different batch sizes. Our model can improve the few-shot
similarity learning between the two branches by introducing the multi-level
interactions. Comprehensive experiments on both PASCAL VOC and MSCOCO FSOD
benchmarks demonstrate the effectiveness of our model.
- Abstract(参考訳): ごく少数のトレーニング例を用いて新しい物体を検出することを目的としたFew-shot Object Detection (FSOD) は、最近コミュニティで大きな関心を集めている。
メトリクス学習に基づく手法は,2分岐型シアムネットワークを用いてこの課題に有効であることが実証され,画像領域と少数ショット例の類似性を計算する。
しかし、以前の研究では、2つのブランチ間の相互作用は検出ヘッドでのみ制限され、残りの数百のレイヤは別々の特徴抽出のために残されている。
近年の視覚変換器と視覚言語変換器の研究に触発されて,機能バックボーンと検出ヘッドの両方にクロストランスを組み込むことで,FSODのための新しい完全クロストランスモデル(FCT)を提案する。
バッチサイズが異なる2つのブランチから鍵情報を集約するために,非対称なクロスアテンションを提案する。
本モデルでは,マルチレベルインタラクションを導入することで,2つのブランチ間の類似性学習を改善できる。
PASCAL VOCとMSCOCO FSODベンチマークの総合的な実験により,本モデルの有効性が示された。
関連論文リスト
- A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Road detection via a dual-task network based on cross-layer graph fusion
modules [2.8197257696982287]
道路検出のためのデュアルタスクネットワーク(DTnet)と層間グラフ融合モジュール(CGM)を提案する。
CGMは複雑な特徴ストリームグラフによる層間融合効果を改善し、4つのグラフパターンを評価した。
論文 参考訳(メタデータ) (2022-08-17T07:16:55Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Bidirectional Multi-scale Attention Networks for Semantic Segmentation
of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。
当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文 参考訳(メタデータ) (2021-02-05T11:02:15Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。