論文の概要: Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows
- arxiv url: http://arxiv.org/abs/2203.10537v1
- Date: Sun, 20 Mar 2022 12:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:51:33.586125
- Title: Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows
- Title(参考訳): Iwin: トランスフォーマーと不規則ウィンドウによるヒューマンオブジェクトのインタラクション検出
- Authors: Danyang Tu and Xiongkuo Min and Huiyu Duan and Guodong Guo and
Guangtao Zhai and Wei Shen
- Abstract要約: Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
- 参考スコア(独自算出の注目度): 57.00864538284686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new vision Transformer, named Iwin Transformer, which
is specifically designed for human-object interaction (HOI) detection, a
detailed scene understanding task involving a sequential process of
human/object detection and interaction recognition. Iwin Transformer is a
hierarchical Transformer which progressively performs token representation
learning and token agglomeration within irregular windows. The irregular
windows, achieved by augmenting regular grid locations with learned offsets, 1)
eliminate redundancy in token representation learning, which leads to efficient
human/object detection, and 2) enable the agglomerated tokens to align with
humans/objects with different shapes, which facilitates the acquisition of
highly-abstracted visual semantics for interaction recognition. The
effectiveness and efficiency of Iwin Transformer are verified on the two
standard HOI detection benchmark datasets, HICO-DET and V-COCO. Results show
our method outperforms existing Transformers-based methods by large margins
(3.7 mAP gain on HICO-DET and 2.0 mAP gain on V-COCO) with fewer training
epochs ($0.5 \times$).
- Abstract(参考訳): 本稿では,人間と物体の相互作用(HOI)の検出に特化して設計された新しい視覚変換器Iwin Transformerを提案する。
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
不規則な窓は、学習されたオフセットで通常のグリッド位置を拡大することで達成される。
1)トークン表現学習の冗長性を解消し,効率的な人間/オブジェクト検出を実現する。
2) 凝集トークンを人・物と異なる形状で整合させることにより,対話認識のための高度に抽象的な視覚的意味論の獲得が容易となる。
HICO-DETとV-COCOの2つの標準HOI検出ベンチマークデータセットにおいて、Iwin Transformerの有効性と効率を検証した。
その結果,既存のトランスフォーマー法ではHICO-DETが3.7 mAP,V-COCOが2.0 mAP,トレーニングエポックが0.5 \times$より少ない結果が得られた。
関連論文リスト
- Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot
MultiBox Detector [15.656374849760734]
本稿では、CvT-ASSD(Convolutional Vision Transformer Based Attentive Single Shot MultiBox Detector)という新しいオブジェクト検出アーキテクチャを提案する。
当社のモデルであるCvT-ASSDは,PASCAL VOCやMS COCOなどの大規模検出データセットで事前学習しながら,システム効率と性能を向上させることができる。
論文 参考訳(メタデータ) (2021-10-24T06:45:33Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。