論文の概要: Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer
- arxiv url: http://arxiv.org/abs/2112.01838v1
- Date: Fri, 3 Dec 2021 10:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:17:28.061233
- Title: Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer
- Title(参考訳): 新しい一方向変圧器による物体相互作用の効率的な2段階検出
- Authors: Frederic Z. Zhang, Dylan Campbell and Stephen Gould
- Abstract要約: Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 41.44769642537572
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent developments in transformer models for visual data have led to
significant improvements in recognition and detection tasks. In particular,
using learnable queries in place of region proposals has given rise to a new
class of one-stage detection models, spearheaded by the Detection Transformer
(DETR). Variations on this one-stage approach have since dominated human-object
interaction (HOI) detection. However, the success of such one-stage HOI
detectors can largely be attributed to the representation power of
transformers. We discovered that when equipped with the same transformer, their
two-stage counterparts can be more performant and memory-efficient, while
taking a fraction of the time to train. In this work, we propose the
Unary-Pairwise Transformer, a two-stage detector that exploits unary and
pairwise representations for HOIs. We observe that the unary and pairwise parts
of our transformer network specialise, with the former preferentially
increasing the scores of positive examples and the latter decreasing the scores
of negative examples. We evaluate our method on the HICO-DET and V-COCO
datasets, and significantly outperform state-of-the-art approaches. At
inference time, our model with ResNet50 approaches real-time performance on a
single GPU.
- Abstract(参考訳): 視覚データのためのトランスモデルの最近の進歩は、認識および検出タスクの大幅な改善をもたらした。
特に、領域提案の代わりに学習可能なクエリを使用することで、検出変換器(DETR)によって先導された新しい1段階検出モデルが生まれている。
この1段階のアプローチのバリエーションは、人間と物体の相互作用(HOI)の検出を支配した。
しかし、そのような一段式HOI検出器の成功は、変圧器の表現力によるところが大きい。
同じ変圧器を装着すると、2段の変圧器の方が性能が高く、メモリ効率が良くなり、訓練時間もほんの少しかかることがわかった。
本研究では,HOIのユニタリとペアワイズ表現を利用する2段検出器であるUnary-Pairwise Transformerを提案する。
変圧器ネットワークの一元的・一対的な部分は特殊化しており、前者は正の例の点数を優先的に増加させ、後者は負の例の点数を減少させる。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
推論時に、ResNet50のモデルは1つのGPU上でのリアルタイムパフォーマンスにアプローチする。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Few-Shot Object Detection with Fully Cross-Transformer [35.49840687007507]
Few-shot Object Detection (FSOD) は、ごく少数のトレーニング例を用いて、新しいオブジェクトを検出することを目的としている。
本稿では,機能バックボーンと検出ヘッドの両方にクロストランスフォーマーを組み込むことにより,FSODのための新しいFCTモデルを提案する。
本モデルでは,複数レベルのインタラクションを導入することにより,2つのブランチ間の数ショットの類似性学習を改善することができる。
論文 参考訳(メタデータ) (2022-03-28T18:28:51Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。