論文の概要: Mining Conditional Part Semantics with Occluded Extrapolation for
Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2307.10499v1
- Date: Wed, 19 Jul 2023 23:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:19:58.781507
- Title: Mining Conditional Part Semantics with Occluded Extrapolation for
Human-Object Interaction Detection
- Title(参考訳): 人間と物体の相互作用検出のためのoccluded外挿によるマイニング条件部意味論
- Authors: Guangzhi Wang, Yangyang Guo, Mohan Kankanhalli
- Abstract要約: 人間と物体の相互作用の検出は、人間中心のシーン理解の重要な側面である。
既存の手法では、人間の手掛かりを使って難易度を緩和しようとするが、外部のアノテーションや知識に大きく依存する。
この問題を解決するための新しいパートセマンティックネットワーク(PSN)を提案する。
- 参考スコア(独自算出の注目度): 8.821884881723285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Object Interaction Detection is a crucial aspect of human-centric scene
understanding, with important applications in various domains. Despite recent
progress in this field, recognizing subtle and detailed interactions remains
challenging. Existing methods try to use human-related clues to alleviate the
difficulty, but rely heavily on external annotations or knowledge, limiting
their practical applicability in real-world scenarios. In this work, we propose
a novel Part Semantic Network (PSN) to solve this problem. The core of PSN is a
Conditional Part Attention (CPA) mechanism, where human features are taken as
keys and values, and the object feature is used as query for the computation in
a cross-attention mechanism. In this way, our model learns to automatically
focus on the most informative human parts conditioned on the involved object,
generating more semantically meaningful features for interaction recognition.
Additionally, we propose an Occluded Part Extrapolation (OPE) strategy to
facilitate interaction recognition under occluded scenarios, which teaches the
model to extrapolate detailed features from partially occluded ones. Our method
consistently outperforms prior approaches on the V-COCO and HICO-DET datasets,
without external data or extra annotations. Additional ablation studies
validate the effectiveness of each component of our proposed method.
- Abstract(参考訳): ヒューマン・オブジェクト間インタラクション検出は、人間中心のシーン理解において重要な側面であり、様々な領域で重要な応用がある。
この分野の最近の進歩にもかかわらず、微妙で詳細な相互作用の認識は依然として困難である。
既存の手法では、難易度を和らげるために人間関係の手がかりを使おうとするが、外部のアノテーションや知識に重きを置き、現実のシナリオで実用性を制限する。
本稿では,この問題を解決するための新しい部分意味ネットワーク(psn)を提案する。
PSNのコアは条件付き部分注意(Conditional Part Attention, CPA)メカニズムであり、人間の特徴をキーと値として取り、オブジェクト特徴をクロスアテンションメカニズムでの計算のクエリとして使用する。
このようにして、我々のモデルは、関係するオブジェクトに条件付けされた最も情報性の高い人間の部分に自動的に焦点を当てることを学び、相互作用認識のためのより意味的に意味のある特徴を生成する。
さらに,Occluded Part Extrapolation (OPE) 戦略を提案する。
V-COCOデータセットやHICO-DETデータセットに対して,外部データや追加アノテーションを使わずに,従来手法よりも常に優れています。
追加のアブレーション研究により,提案手法の各成分の有効性が検証された。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - Learning Intuitive Policies Using Action Features [7.260481131198059]
ネットワークアーキテクチャが意味的関係を利用する学習アルゴリズムの妥当性に与える影響について検討する。
観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスをもたらす。
論文 参考訳(メタデータ) (2022-01-29T20:54:52Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。