論文の概要: What to look at and where: Semantic and Spatial Refined Transformer for
detecting human-object interactions
- arxiv url: http://arxiv.org/abs/2204.00746v1
- Date: Sat, 2 Apr 2022 02:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 10:32:10.143339
- Title: What to look at and where: Semantic and Spatial Refined Transformer for
detecting human-object interactions
- Title(参考訳): 人間と物体の相互作用を検知するための意味的および空間的精細変換器
- Authors: A S M Iftekhar, Hao Chen, Kaustav Kundu, Xinyu Li, Joseph Tighe,
Davide Modolo
- Abstract要約: 本研究では,1段階のトランスフォーマーをベースとした空間改良型トランスフォーマ (SSRT) を提案する。
2つの新しいモジュールは、画像内の最も関連性の高いオブジェクト-アクションペアを選択し、リッチなセマンティクスと空間的特徴を使ってクエリの表現を洗練するのに役立ちます。
これらの拡張は、最も人気のある2つのHOIベンチマークであるV-COCOとHICO-DETの最先端結果につながる。
- 参考スコア(独自算出の注目度): 26.87434934565539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel one-stage Transformer-based semantic and spatial refined
transformer (SSRT) to solve the Human-Object Interaction detection task, which
requires to localize humans and objects, and predicts their interactions.
Differently from previous Transformer-based HOI approaches, which mostly focus
at improving the design of the decoder outputs for the final detection, SSRT
introduces two new modules to help select the most relevant object-action pairs
within an image and refine the queries' representation using rich semantic and
spatial features. These enhancements lead to state-of-the-art results on the
two most popular HOI benchmarks: V-COCO and HICO-DET.
- Abstract(参考訳): 本研究では,人間と物体の局所化を必要とするヒューマン・オブジェクトのインタラクション検出タスクを解くために,一段階のトランスフォーマーベースセマンティック・空間改良トランスフォーマ(SSRT)を提案する。
TransformerベースのHOIアプローチとは違い、最終的な検出のためのデコーダ出力の設計の改善に重点を置いているSSRTでは、イメージ内で最も関連性の高いオブジェクト-アクションペアを選択し、リッチな意味的特徴と空間的特徴を使用してクエリの表現を洗練するための2つの新しいモジュールを導入している。
これらの拡張は、最も人気のある2つのHOIベンチマークであるV-COCOとHICO-DETの最先端結果につながる。
関連論文リスト
- Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction
Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。
近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。
本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文 参考訳(メタデータ) (2022-03-28T12:58:59Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。