論文の概要: Geometric Features Enhanced Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2406.18691v1
- Date: Wed, 26 Jun 2024 18:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:07:31.617917
- Title: Geometric Features Enhanced Human-Object Interaction Detection
- Title(参考訳): 人-物体相互作用検出における幾何学的特徴
- Authors: Manli Zhu, Edmond S. L. Ho, Shuang Chen, Longzhi Yang, Hubert P. H. Shum,
- Abstract要約: 我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
- 参考スコア(独自算出の注目度): 11.513009304308724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cameras are essential vision instruments to capture images for pattern detection and measurement. Human-object interaction (HOI) detection is one of the most popular pattern detection approaches for captured human-centric visual scenes. Recently, Transformer-based models have become the dominant approach for HOI detection due to their advanced network architectures and thus promising results. However, most of them follow the one-stage design of vanilla Transformer, leaving rich geometric priors under-exploited and leading to compromised performance especially when occlusion occurs. Given that geometric features tend to outperform visual ones in occluded scenarios and offer information that complements visual cues, we propose a novel end-to-end Transformer-style HOI detection model, i.e., geometric features enhanced HOI detector (GeoHOI). One key part of the model is a new unified self-supervised keypoint learning method named UniPointNet that bridges the gap of consistent keypoint representation across diverse object categories, including humans. GeoHOI effectively upgrades a Transformer-based HOI detector benefiting from the keypoints similarities measuring the likelihood of human-object interactions as well as local keypoint patches to enhance interaction query representation, so as to boost HOI predictions. Extensive experiments show that the proposed method outperforms the state-of-the-art models on V-COCO and achieves competitive performance on HICO-DET. Case study results on the post-disaster rescue with vision-based instruments showcase the applicability of the proposed GeoHOI in real-world applications.
- Abstract(参考訳): カメラは、パターン検出と測定のために画像をキャプチャするために必要な視覚機器である。
ヒト・オブジェクト・インタラクション(HOI)検出は、キャプチャされた人間中心の視覚シーンにおいて最も一般的なパターン検出手法の1つである。
近年,トランスフォーマーをベースとしたモデルが,先進的なネットワークアーキテクチャによりHOI検出の主流となっている。
しかし、そのほとんどはバニラ変圧器の一段設計を踏襲しており、豊富な幾何学的先駆体が露出しておらず、特に閉塞が起こると性能が損なわれる。
幾何学的特徴が視覚的特徴よりも優れ,視覚的手がかりを補完する情報を提供する傾向があることを考慮し,幾何学的特徴強化HOI検出器(GeoHOI)と呼ばれる,新しいエンドツーエンドの変換器型HOI検出モデルを提案する。
このモデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法であり、それは、人間を含むさまざまなオブジェクトカテゴリで一貫したキーポイント表現のギャップを埋めるものである。
GeoHOIは、TransformerベースのHOI検出器を効果的にアップグレードし、人間とオブジェクトの相互作用の可能性を測定するキーポイント類似性、およびローカルキーポイントパッチを使用してインタラクションクエリ表現を強化し、HOI予測を向上する。
実験の結果,提案手法はV-COCO上での最先端モデルよりも優れ,HICO-DET上での競合性能を実現していることがわかった。
視覚系機器を用いた災害後救助の事例研究は、提案したGeoHOIを現実の応用に適用可能であることを示す。
関連論文リスト
- UniMODE: Unified Monocular 3D Object Detection [70.27631528933482]
我々は,鳥眼視(BEV)検出パラダイムに基づく検出器を構築した。
本稿では,この課題に起因する収束不安定性に対応するために,不均一なBEVグリッド設計を提案する。
統一検出器UniMODEが導出され、挑戦的なOmni3Dデータセットの先行技術を上回る。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross
Appearance-Edge Learning [49.93362169016503]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - HOKEM: Human and Object Keypoint-based Extension Module for Human-Object
Interaction Detection [1.2183405753834557]
本稿では、従来の検出モデルの精度を向上させるために、人およびオブジェクトキーポイントベースの拡張モジュール(HOKEM)を使いやすい拡張モジュールとして提案する。
HOIデータセットであるV-COCOを用いた実験では、HOKEMが外観ベースモデルの精度を大きなマージンで向上させた。
論文 参考訳(メタデータ) (2023-06-25T14:40:26Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - A Skeleton-aware Graph Convolutional Network for Human-Object
Interaction Detection [14.900704382194013]
そこで我々は,SGCN4HOIという人-物間相互作用検出のためのスケルトン対応グラフ畳み込みネットワークを提案する。
我々のネットワークは、人間のキーポイントとオブジェクトキーポイントの間の空間的接続を利用して、グラフの畳み込みによるきめ細かい構造的相互作用を捉えます。
このような幾何学的特徴と視覚的特徴と、人間と物体のペアから得られる空間的構成特徴を融合させる。
論文 参考訳(メタデータ) (2022-07-11T15:20:18Z) - Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection [11.928724924319138]
変換器のHOI検出を改善するために,クロスパス整合性学習(CPC)を提案する。
提案手法の有効性を実証し, V-COCO, HICO-DETを改良した。
論文 参考訳(メタデータ) (2022-04-11T02:45:00Z) - MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction
Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。
近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。
本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文 参考訳(メタデータ) (2022-03-28T12:58:59Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。