論文の概要: QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2508.08590v1
- Date: Tue, 12 Aug 2025 03:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.282602
- Title: QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection
- Title(参考訳): QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection
- Authors: Yuxiao Wang, Wolin Liang, Yu Lei, Weiying Xue, Nan Zhuang, Qi Liu,
- Abstract要約: 本稿では,セマンティックな事前情報と特徴学習を組み込んだ新しいプラグアンドプレイHOI検出フレームワークを提案する。
本手法はHICO-DetおよびV-COCOベンチマーク上での最先端性能と強力な一般化を実現する。
- 参考スコア(独自算出の注目度): 7.030364980618468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions in images. Although DETR-based methods have recently emerged as the mainstream framework for HOI detection, they still suffer from a key limitation: Randomly initialized queries lack explicit semantics, leading to suboptimal detection performance. To address this challenge, we propose QueryCraft, a novel plug-and-play HOI detection framework that incorporates semantic priors and guided feature learning through transformer-based query initialization. Central to our approach is \textbf{ACTOR} (\textbf{A}ction-aware \textbf{C}ross-modal \textbf{T}ransf\textbf{OR}mer), a cross-modal Transformer encoder that jointly attends to visual regions and textual prompts to extract action-relevant features. Rather than merely aligning modalities, ACTOR leverages language-guided attention to infer interaction semantics and produce semantically meaningful query representations. To further enhance object-level query quality, we introduce a \textbf{P}erceptual \textbf{D}istilled \textbf{Q}uery \textbf{D}ecoder (\textbf{PDQD}), which distills object category awareness from a pre-trained detector to serve as object query initiation. This dual-branch query initialization enables the model to generate more interpretable and effective queries for HOI detection. Extensive experiments on HICO-Det and V-COCO benchmarks demonstrate that our method achieves state-of-the-art performance and strong generalization. Code will be released upon publication.
- Abstract(参考訳): 人オブジェクトインタラクション(HOI)検出は、人オブジェクトペアをローカライズし、画像内のインタラクションを認識することを目的としている。
DETRベースのメソッドは、最近HOI検出の主流フレームワークとして登場したが、それでも重要な制限に悩まされている。
この課題に対処するために、我々は、セマンティックプリエンスを組み込んだ新しいプラグアンドプレイHOI検出フレームワークであるQueryCraftを提案し、トランスフォーマーベースのクエリ初期化を通じて特徴学習をガイドする。
我々のアプローチの中心は、視覚領域への共同参加と行動関連特徴抽出のためのテキストプロンプトを備えたクロスモーダルトランスフォーマーである \textbf{ACTOR} (\textbf{A}ction-aware \textbf{C}ross-modal \textbf{T}ransf\textbf{OR}mer) である。
単にモダリティを整合させるのではなく、ACTORは言語誘導の注意を利用して相互作用のセマンティクスを推論し、意味的に意味のあるクエリ表現を生成する。
オブジェクトレベルのクエリ品質をさらに高めるために、事前学習された検出器からオブジェクトカテゴリ認識を蒸留し、オブジェクトクエリ開始に役立てる、 \textbf{P}erceptual \textbf{D}istilled \textbf{Q}uery \textbf{D}ecoder (\textbf{PDQD})を導入する。
この二重分岐クエリ初期化により、HOI検出のためのより解釈可能で効果的なクエリを生成することができる。
HICO-Det と V-COCO ベンチマークの大規模な実験により,本手法が最先端性能と強力な一般化を実現することを示す。
コードは公開時に公開される。
関連論文リスト
- METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection [25.542175004831844]
Open-vocabulary video visual relationship detectionは、事前に定義されたオブジェクトや関係カテゴリに制限されることなく、ビデオ内のオブジェクトとそれらの関係を検出することを目的としている。
既存の手法では、CLIPのような事前訓練された視覚言語モデルの豊富な意味知識を活用して、新しいカテゴリを識別する。
オープン語彙シナリオにおけるオブジェクト検出と関係分類を相互にモデル化し,相互に強化するために,Multual EnhancemenT of Objects and Relationships (METOR)を提案する。
論文 参考訳(メタデータ) (2025-05-10T14:45:43Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。