論文の概要: Human-Object Interaction Detection via Weak Supervision
- arxiv url: http://arxiv.org/abs/2112.00492v1
- Date: Wed, 1 Dec 2021 13:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 20:30:35.272219
- Title: Human-Object Interaction Detection via Weak Supervision
- Title(参考訳): 弱視による物体間相互作用検出
- Authors: Mert Kilickaya and Arnold Smeulders
- Abstract要約: 人-物間相互作用(HO-I)検出は、人-物間相互作用領域を発見し、その相互作用を画像から分類することを目的としている。
HO-Iのアライメントは、人間と対話したオブジェクトをペアリングし、人間とオブジェクトのペアをその相互作用カテゴリにアライメントする。
このようなアノテーションの収集は高価であるため,本論文では,アライメントの監督なしにHO-Iを検出することを提案する。
その代わり、私たちは画像内の既存のインタラクションを列挙するだけであるイメージレベルの監視に頼っています。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is Human-object Interaction (HO-I) detection. HO-I
detection aims to find interacting human-objects regions and classify their
interaction from an image. Researchers obtain significant improvement in recent
years by relying on strong HO-I alignment supervision from [5]. HO-I alignment
supervision pairs humans with their interacted objects, and then aligns
human-object pair(s) with their interaction categories. Since collecting such
annotation is expensive, in this paper, we propose to detect HO-I without
alignment supervision. We instead rely on image-level supervision that only
enumerates existing interactions within the image without pointing where they
happen. Our paper makes three contributions: i) We propose Align-Former, a
visual-transformer based CNN that can detect HO-I with only image-level
supervision. ii) Align-Former is equipped with HO-I align layer, that can learn
to select appropriate targets to allow detector supervision. iii) We evaluate
Align-Former on HICO-DET [5] and V-COCO [13], and show that Align-Former
outperforms existing image-level supervised HO-I detectors by a large margin
(4.71% mAP improvement from 16.14% to 20.85% on HICO-DET [5]).
- Abstract(参考訳): 本研究の目的は,Human-Object Interaction (HO-I) 検出である。
HO-I検出は、相互作用する対象領域を見つけ、その相互作用を画像から分類することを目的としている。
近年の研究者は,[5]から強いHO-Iアライメントの監督を頼りに,大幅な改善を遂げている。
HO-Iのアライメントは、人間と対話したオブジェクトをペアにし、人間とオブジェクトのペアを相互作用カテゴリにアライメントする。
このようなアノテーションの収集は費用がかかるため,本稿ではアライメントの監督なしにho-iの検出を提案する。
代わりに、画像内の既存のインタラクションを列挙するだけであるイメージレベルの監視に頼っています。
論文には3つの貢献があります
i)画像レベルの監視のみでHO-Iを検出できる視覚変換器ベースのCNNであるAlign-Formerを提案する。
二 アラインフォーマーは、HO-Iアライメント層を備えており、検出器の監視を可能にする適切な目標を選択することを学べる。
三 HICO-DET[5]およびV-COCO[13]上のAlign-Formerの評価を行い、既存の画像レベルのHO-I検出器を大きなマージン(HICO-DET[5]で16.14%から20.85%に改善した4.71%)で上回ったことを示す。
関連論文リスト
- UnionDet: Union-Level Detector Towards Real-Time Human-Object
Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。
ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文 参考訳(メタデータ) (2023-12-19T23:34:43Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。
人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。
オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文 参考訳(メタデータ) (2021-03-15T08:52:56Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。