論文の概要: ContextHOI: Spatial Context Learning for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2412.09050v1
- Date: Thu, 12 Dec 2024 08:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:38.604422
- Title: ContextHOI: Spatial Context Learning for Human-Object Interaction Detection
- Title(参考訳): ContextHOI:人間と物体の相互作用検出のための空間文脈学習
- Authors: Mingda Jia, Liming Zhao, Ge Li, Yun Zheng,
- Abstract要約: 空間コンテキストは、Human-Object Interaction (HOI) 認識において重要であると考えられている。
本稿では、オブジェクト検出機能と空間コンテキストの両方を効率的にキャプチャするContextHOIというデュアルブランチフレームワークを提案する。
ContextHOIはHICO-DETとv-cocoベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 24.381821663963898
- License:
- Abstract: Spatial contexts, such as the backgrounds and surroundings, are considered critical in Human-Object Interaction (HOI) recognition, especially when the instance-centric foreground is blurred or occluded. Recent advancements in HOI detectors are usually built upon detection transformer pipelines. While such an object-detection-oriented paradigm shows promise in localizing objects, its exploration of spatial context is often insufficient for accurately recognizing human actions. To enhance the capabilities of object detectors for HOI detection, we present a dual-branch framework named ContextHOI, which efficiently captures both object detection features and spatial contexts. In the context branch, we train the model to extract informative spatial context without requiring additional hand-craft background labels. Furthermore, we introduce context-aware spatial and semantic supervision to the context branch to filter out irrelevant noise and capture informative contexts. ContextHOI achieves state-of-the-art performance on the HICO-DET and v-coco benchmarks. For further validation, we construct a novel benchmark, HICO-ambiguous, which is a subset of HICO-DET that contains images with occluded or impaired instance cues. Extensive experiments across all benchmarks, complemented by visualizations, underscore the enhancements provided by ContextHOI, especially in recognizing interactions involving occluded or blurred instances.
- Abstract(参考訳): 背景や周囲などの空間的文脈は、特にインスタンス中心のフォアグラウンドがぼやけている場合、人間と物体の相互作用(HOI)認識において重要であると考えられている。
HOI検出器の最近の進歩は、通常、検出変圧器パイプライン上に構築されている。
このようなオブジェクト検出指向のパラダイムは、オブジェクトのローカライズにおける約束を示すが、その空間的コンテキストの探索は、人間の行動を正確に認識するには不十分であることが多い。
本研究では,物体検出機能と空間コンテキストの両方を効率的にキャプチャするContextHOIというデュアルブランチ・フレームワークを提案する。
コンテキストブランチでは、手書きの背景ラベルを追加することなく、情報的空間コンテキストを抽出するようにモデルを訓練する。
さらに,無関係な雑音を除去し,情報的コンテキストを捉えるために,文脈対応の空間的・意味的監視をコンテキストブランチに導入する。
ContextHOIはHICO-DETとv-cocoベンチマークで最先端のパフォーマンスを達成する。
さらに検証するために,HICO-DETのサブセットであるHICO-ambiguousという新しいベンチマークを構築した。
視覚化によって補完される全ベンチマークにわたる大規模な実験は、ContextHOIが提供する拡張、特に隠蔽されたインスタンスやぼやけたインスタンスを含むインタラクションを認識することの基盤となっている。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Evaluating Context for Deep Object Detectors [18.932504899552494]
我々はオブジェクト検出器を文脈的使用の観点から3つのカテゴリに分類する。
さまざまなコンテキストに対して完全に制御されたデータセットを作成します。
単段および二段の物体検出器は、その大きな受容場によってコンテキストを利用でき、かつ使用することができることを実証する。
論文 参考訳(メタデータ) (2022-05-05T18:48:29Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。