論文の概要: Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics
- arxiv url: http://arxiv.org/abs/2202.00259v1
- Date: Tue, 1 Feb 2022 07:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:43:52.731967
- Title: Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics
- Title(参考訳): オブジェクトガイド型クロスモーダルキャリブレーション・セマンティクスによる人間と物体の相互作用の検出
- Authors: Hangjie Yuan, Mang Wang, Dong Ni and Liangpeng Xu
- Abstract要約: 我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
- 参考スコア(独自算出の注目度): 6.678312249123534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection is an essential task to understand
human-centric images from a fine-grained perspective. Although end-to-end HOI
detection models thrive, their paradigm of parallel human/object detection and
verb class prediction loses two-stage methods' merit: object-guided hierarchy.
The object in one HOI triplet gives direct clues to the verb to be predicted.
In this paper, we aim to boost end-to-end models with object-guided statistical
priors. Specifically, We propose to utilize a Verb Semantic Model (VSM) and use
semantic aggregation to profit from this object-guided hierarchy. Similarity KL
(SKL) loss is proposed to optimize VSM to align with the HOI dataset's priors.
To overcome the static semantic embedding problem, we propose to generate
cross-modality-aware visual and semantic features by Cross-Modal Calibration
(CMC). The above modules combined composes Object-guided Cross-modal
Calibration Network (OCN). Experiments conducted on two popular HOI detection
benchmarks demonstrate the significance of incorporating the statistical prior
knowledge and produce state-of-the-art performances. More detailed analysis
indicates proposed modules serve as a stronger verb predictor and a more
superior method of utilizing prior knowledge. The codes are available at
\url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(HOI)検出は、きめ細かい視点から人間中心の画像を理解するために不可欠なタスクである。
エンドツーエンドのhoi検出モデルは繁栄するが、並列人間/オブジェクト検出と動詞クラス予測のパラダイムは、2段階のメソッドのメリットを失う。
1つの hoi triplet のオブジェクトは、予測される動詞の直接の手がかりを与える。
本稿では,オブジェクト指向統計モデルを用いたエンドツーエンドモデルの構築を目標とする。
具体的には,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る。
HOIデータセットの事前値に合わせてVSMを最適化するために、類似性KL(SKL)損失が提案されている。
静的意味埋め込み問題を克服するために, クロスモーダルキャリブレーション(cmc)により, 相互モダリティを認識できる視覚および意味的特徴を生成することを提案する。
上記のモジュールは、オブジェクト指向のクロスモーダルキャリブレーションネットワーク(OCN)を構成する。
2つの一般的なHOI検出ベンチマークで実施された実験は、統計的事前知識を取り入れ、最先端のパフォーマンスを生み出すことの重要性を示している。
より詳細な分析では、提案するモジュールはより強力な動詞予測器であり、より優れた事前知識を利用する方法であることを示している。
コードは \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark} で公開されている。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Exploring Self- and Cross-Triplet Correlations for Human-Object
Interaction Detection [38.86053346974547]
本稿では,HOI検出のための自己相関とクロストリプレット相関について検討する。
具体的には、各三重項提案を、Human、Objectがノードを表し、Actionがエッジを示すグラフとみなす。
また、インスタンスレベル、セマンティックレベル、レイアウトレベルの関係を共同で検討することで、クロストリップの依存関係についても検討する。
論文 参考訳(メタデータ) (2024-01-11T05:38:24Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection [11.928724924319138]
変換器のHOI検出を改善するために,クロスパス整合性学習(CPC)を提案する。
提案手法の有効性を実証し, V-COCO, HICO-DETを改良した。
論文 参考訳(メタデータ) (2022-04-11T02:45:00Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。