論文の概要: DQEN: Dual Query Enhancement Network for DETR-based HOI Detection
- arxiv url: http://arxiv.org/abs/2508.18896v1
- Date: Tue, 26 Aug 2025 10:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.797469
- Title: DQEN: Dual Query Enhancement Network for DETR-based HOI Detection
- Title(参考訳): DQEN: DETRに基づくHOI検出のためのデュアルクエリ拡張ネットワーク
- Authors: Zhehao Li, Chong Wang, Yi Chen, Yinghao Lu, Jiangbo Qian, Jiong Wang, Jiafei Wu,
- Abstract要約: 人間と物体の相互作用(Human-Object Interaction, HOI)の検出は、人間と物体のペアをローカライズし、その相互作用を認識することに焦点を当てる。
DETRベースのHOIモデルでは、HOIを正確に検出するために明確な意味を持つクエリが不可欠である。
本稿では、オブジェクトおよびインタラクションクエリを強化するために、DQEN(Dual Query Enhancement Network)を提案する。
- 参考スコア(独自算出の注目度): 19.742290580421322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection focuses on localizing human-object pairs and recognizing their interactions. Recently, the DETR-based framework has been widely adopted in HOI detection. In DETR-based HOI models, queries with clear meaning are crucial for accurately detecting HOIs. However, prior works have typically relied on randomly initialized queries, leading to vague representations that limit the model's effectiveness. Meanwhile, humans in the HOI categories are fixed, while objects and their interactions are variable. Therefore, we propose a Dual Query Enhancement Network (DQEN) to enhance object and interaction queries. Specifically, object queries are enhanced with object-aware encoder features, enabling the model to focus more effectively on humans interacting with objects in an object-aware way. On the other hand, we design a novel Interaction Semantic Fusion module to exploit the HOI candidates that are promoted by the CLIP model. Semantic features are extracted to enhance the initialization of interaction queries, thereby improving the model's ability to understand interactions. Furthermore, we introduce an Auxiliary Prediction Unit aimed at improving the representation of interaction features. Our proposed method achieves competitive performance on both the HICO-Det and the V-COCO datasets. The source code is available at https://github.com/lzzhhh1019/DQEN.
- Abstract(参考訳): 人間と物体の相互作用(Human-Object Interaction, HOI)の検出は、人間と物体のペアをローカライズし、その相互作用を認識することに焦点を当てる。
近年, HOI検出においてDETRベースのフレームワークが広く採用されている。
DETRベースのHOIモデルでは、HOIを正確に検出するために明確な意味を持つクエリが不可欠である。
しかし、以前の研究は通常ランダムに初期化されたクエリに依存しており、モデルの有効性を制限する曖昧な表現につながっている。
一方、HOIカテゴリの人間は固定され、オブジェクトとその相互作用は可変である。
そこで本稿では、オブジェクトおよびインタラクションクエリを強化するために、DQEN(Dual Query Enhancement Network)を提案する。
具体的には、オブジェクトクエリはオブジェクト認識エンコーダ機能によって拡張され、オブジェクト認識方法でオブジェクトと対話する人間により効果的にフォーカスすることができる。
一方,我々は,CLIPモデルにより促進されるHOI候補を活用すべく,新たなインタラクションセマンティック・フュージョン・モジュールを設計する。
セマンティックな特徴を抽出し、相互作用クエリの初期化を強化することにより、相互作用を理解するモデルの能力を向上させる。
さらに,インタラクション特徴の表現性の向上を目的とした補助予測ユニットを導入する。
提案手法は,HICO-DetとV-COCOデータセットの競合性能を実現する。
ソースコードはhttps://github.com/lzzhhh1019/DQENで入手できる。
関連論文リスト
- Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文 参考訳(メタデータ) (2025-08-05T08:33:58Z) - METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection [25.542175004831844]
Open-vocabulary video visual relationship detectionは、事前に定義されたオブジェクトや関係カテゴリに制限されることなく、ビデオ内のオブジェクトとそれらの関係を検出することを目的としている。
既存の手法では、CLIPのような事前訓練された視覚言語モデルの豊富な意味知識を活用して、新しいカテゴリを識別する。
オープン語彙シナリオにおけるオブジェクト検出と関係分類を相互にモデル化し,相互に強化するために,Multual EnhancemenT of Objects and Relationships (METOR)を提案する。
論文 参考訳(メタデータ) (2025-05-10T14:45:43Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Category-Aware Transformer Network for Better Human-Object Interaction
Detection [20.857034771924997]
カテゴリ認識型セマンティック情報を用いてObject Queryを初期化することにより,トランスフォーマーベースのHOI検出器の高速化の課題について検討する。
具体的には、Object Queryは、外部オブジェクト検出モデルで表されるカテゴリ先行によって表現され、パフォーマンスが向上する。
我々のアイデアを取り入れたHOI検出モデルは、新しい最先端結果を得るために、ベースラインを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T07:21:24Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - RR-Net: Injecting Interactive Semantics in Human-Object Interaction
Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。
まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。
上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。
RR-Net)
論文 参考訳(メタデータ) (2021-04-30T14:03:10Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。