論文の概要: Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2206.06291v1
- Date: Mon, 13 Jun 2022 16:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 14:21:03.989532
- Title: Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection
- Title(参考訳): ヒューマンオブジェクトインタラクション検出のためのインタラクション提案に基づく構造認識変換器の探索
- Authors: Yong Zhang and Yingwei Pan and Ting Yao and Rui Huang and Tao Mei and
Chang-Wen Chen
- Abstract要約: 我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
- 参考スコア(独自算出の注目度): 119.93025368028083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent high-performing Human-Object Interaction (HOI) detection techniques
have been highly influenced by Transformer-based object detector (i.e., DETR).
Nevertheless, most of them directly map parametric interaction queries into a
set of HOI predictions through vanilla Transformer in a one-stage manner. This
leaves rich inter- or intra-interaction structure under-exploited. In this
work, we design a novel Transformer-style HOI detector, i.e., Structure-aware
Transformer over Interaction Proposals (STIP), for HOI detection. Such design
decomposes the process of HOI set prediction into two subsequent phases, i.e.,
an interaction proposal generation is first performed, and then followed by
transforming the non-parametric interaction proposals into HOI predictions via
a structure-aware Transformer. The structure-aware Transformer upgrades vanilla
Transformer by encoding additionally the holistically semantic structure among
interaction proposals as well as the locally spatial structure of human/object
within each interaction proposal, so as to strengthen HOI predictions.
Extensive experiments conducted on V-COCO and HICO-DET benchmarks have
demonstrated the effectiveness of STIP, and superior results are reported when
comparing with the state-of-the-art HOI detectors. Source code is available at
\url{https://github.com/zyong812/STIP}.
- Abstract(参考訳): 近年のHuman-Object Interaction(HOI)検出技術はTransformerベースのオブジェクト検出器(DETR)の影響を強く受けている。
それでも、ほとんどの場合、パラメトリックなインタラクションクエリを直接、バニラトランスフォーマーを通じて一段階的にHOI予測にマッピングする。
これにより、リッチな相互作用間構造や相互作用内構造が過小評価される。
本稿では,hoi検出のための新しいトランスフォーマティブ型hoi検出器,すなわちstip(structure-aware transformer over interaction proposals)を設計した。
このような設計は、HOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案の全体的意味構造と、各相互作用提案内の人間・物体の局所的空間構造を付加してバニラ変換器をアップグレードし、HOI予測を強化する。
V-COCOとHICO-DETのベンチマークで行った大規模な実験はSTIPの有効性を示し、最先端のHOI検出器と比較すると優れた結果が報告されている。
ソースコードは \url{https://github.com/zyong812/STIP} で入手できる。
関連論文リスト
- Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection [11.928724924319138]
変換器のHOI検出を改善するために,クロスパス整合性学習(CPC)を提案する。
提案手法の有効性を実証し, V-COCO, HICO-DETを改良した。
論文 参考訳(メタデータ) (2022-04-11T02:45:00Z) - What to look at and where: Semantic and Spatial Refined Transformer for
detecting human-object interactions [26.87434934565539]
本研究では,1段階のトランスフォーマーをベースとした空間改良型トランスフォーマ (SSRT) を提案する。
2つの新しいモジュールは、画像内の最も関連性の高いオブジェクト-アクションペアを選択し、リッチなセマンティクスと空間的特徴を使ってクエリの表現を洗練するのに役立ちます。
これらの拡張は、最も人気のある2つのHOIベンチマークであるV-COCOとHICO-DETの最先端結果につながる。
論文 参考訳(メタデータ) (2022-04-02T02:41:31Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。