論文の概要: Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection
- arxiv url: http://arxiv.org/abs/2507.12628v1
- Date: Wed, 16 Jul 2025 20:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.269772
- Title: Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection
- Title(参考訳): Funnel-HOI:ゼロショットHOI検出のためのトップダウン知覚
- Authors: Sandipan Sarma, Agney Talwarr, Arijit Sur,
- Abstract要約: 人間オブジェクトの相互作用検出(Human-object Interaction Detection, HOID)とは、画像中の対話的な人間オブジェクトのペアをローカライズし、その相互作用を識別することである。
本研究では,Funnel-HOIというトップダウンフレームワークを構築した。
新規な非対称なコアテンション機構は、マルチモーダル情報(ゼロショット機能を含む)を利用してこれらのキューをマイニングし、エンコーダレベルでより強力な相互作用表現を生成する。
- 参考スコア(独自算出の注目度): 3.656114607436271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-object interaction detection (HOID) refers to localizing interactive human-object pairs in images and identifying the interactions. Since there could be an exponential number of object-action combinations, labeled data is limited - leading to a long-tail distribution problem. Recently, zero-shot learning emerged as a solution, with end-to-end transformer-based object detectors adapted for HOID becoming successful frameworks. However, their primary focus is designing improved decoders for learning entangled or disentangled interpretations of interactions. We advocate that HOI-specific cues must be anticipated at the encoder stage itself to obtain a stronger scene interpretation. Consequently, we build a top-down framework named Funnel-HOI inspired by the human tendency to grasp well-defined concepts first and then associate them with abstract concepts during scene understanding. We first probe an image for the presence of objects (well-defined concepts) and then probe for actions (abstract concepts) associated with them. A novel asymmetric co-attention mechanism mines these cues utilizing multimodal information (incorporating zero-shot capabilities) and yields stronger interaction representations at the encoder level. Furthermore, a novel loss is devised that considers objectaction relatedness and regulates misclassification penalty better than existing loss functions for guiding the interaction classifier. Extensive experiments on the HICO-DET and V-COCO datasets across fully-supervised and six zero-shot settings reveal our state-of-the-art performance, with up to 12.4% and 8.4% gains for unseen and rare HOI categories, respectively.
- Abstract(参考訳): 人間オブジェクトの相互作用検出(Human-object Interaction Detection, HOID)とは、画像中の対話的な人間オブジェクトのペアをローカライズし、その相互作用を識別することである。
指数関数的な数のオブジェクト-アクションの組み合わせが存在する可能性があるため、ラベル付きデータは制限され、長い尾の分布問題に繋がる。
近年、ゼロショット学習がソリューションとして登場し、エンドツーエンドのトランスフォーマーベースのオブジェクト検出器がフレームワークとして成功している。
しかし、その主な焦点は、相互作用の絡み合った解釈を学習するための改良されたデコーダを設計することである。
我々は,HOI固有のキューをエンコーダの段階で予測し,より強いシーン解釈を得るよう提唱する。
そこで我々は,Funnel-HOIというトップダウンフレームワークを構築した。
まず、対象(よく定義された概念)の存在をイメージとして探索し、それに関連するアクション(抽象概念)を探索する。
新規な非対称なコアテンション機構は、マルチモーダル情報(ゼロショット機能を含む)を利用してこれらのキューをマイニングし、エンコーダレベルでより強力な相互作用表現を生成する。
さらに、対物関係性を考慮し、相互作用分類器を導くための既存の損失関数よりも誤分類ペナルティを適切に規制する新規な損失を考案した。
HICO-DETデータセットとV-COCOデータセットに関する大規模な実験では、完全に教師された6つのゼロショット設定によって、最先端のパフォーマンスが明らかにされている。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Locality-Aware Zero-Shot Human-Object Interaction Detection [43.13461922628371]
本稿では,新しいゼロショット・ヒューマン・オブジェクト・インタラクション(HOI)検出フレームワークであるLAINを紹介する。
LAINは、局所性と相互作用の認識をCLIP表現に注入することにより、人間とオブジェクトのペアに関する詳細な情報をキャプチャする。
実験の結果,LAINは様々なゼロショット設定で過去の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-26T04:31:34Z) - UnionDet: Union-Level Detector Towards Real-Time Human-Object
Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。
ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文 参考訳(メタデータ) (2023-12-19T23:34:43Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。