論文の概要: Is Object Detection Necessary for Human-Object Interaction Recognition?
- arxiv url: http://arxiv.org/abs/2107.13083v1
- Date: Tue, 27 Jul 2021 21:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 14:10:32.784433
- Title: Is Object Detection Necessary for Human-Object Interaction Recognition?
- Title(参考訳): 物体検出は人間と物体のインタラクション認識に必要か?
- Authors: Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Zicheng
Liu, Jenq-Neng Hwang
- Abstract要約: 本稿では、物体の位置と人間のポーズの監督を使わずに、画像レベルでの人間と物体の相互作用(HOI)認識を再考する。
既存の検出教師付きアプローチとは対照的に,検出不要なHOI認識と命名する。
- 参考スコア(独自算出の注目度): 37.61038047282247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits human-object interaction (HOI) recognition at image level
without using supervisions of object location and human pose. We name it
detection-free HOI recognition, in contrast to the existing
detection-supervised approaches which rely on object and keypoint detections to
achieve state of the art. With our method, not only the detection supervision
is evitable, but superior performance can be achieved by properly using
image-text pre-training (such as CLIP) and the proposed Log-Sum-Exp Sign
(LSE-Sign) loss function. Specifically, using text embeddings of class labels
to initialize the linear classifier is essential for leveraging the CLIP
pre-trained image encoder. In addition, LSE-Sign loss facilitates learning from
multiple labels on an imbalanced dataset by normalizing gradients over all
classes in a softmax format. Surprisingly, our detection-free solution achieves
60.5 mAP on the HICO dataset, outperforming the detection-supervised state of
the art by 13.4 mAP
- Abstract(参考訳): 本稿では,物体の位置とポーズの監視を使わずに,画像レベルでの人間-物体間インタラクション(hoi)認識を再検討する。
現状を達成するために,オブジェクトやキーポイント検出に依存する既存の検出教師付きアプローチとは対照的に,検出不要なhoi認識と呼ぶ。
提案手法では,検出監視だけでなく,画像テキスト事前学習(CLIPなど)とLog-Sum-Exp Sign (LSE-Sign)損失関数を適切に利用することにより,優れた性能を実現することができる。
具体的には、CLIP事前訓練画像エンコーダを利用するには、クラスラベルのテキスト埋め込みを使用して線形分類器を初期化することが不可欠である。
加えて、LSE-Sign Losは、ソフトマックスフォーマットですべてのクラスに勾配を正規化することで、不均衡なデータセット上の複数のラベルから学習を容易にする。
驚いたことに、我々の検出不要解はHICOデータセット上で60.5 mAPを達成し、13.4 mAPによる検出監督状態を上回った。
関連論文リスト
- Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection [4.0208298639821525]
ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。
近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。
我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
論文 参考訳(メタデータ) (2023-11-01T04:04:34Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning Remote Sensing Object Detection with Single Point Supervision [17.12725535531483]
Pointly Supervised Object Detection (PSOD) は、ボックスレベルの監視対象検出と比較してラベリングコストが低いため、かなりの関心を集めている。
本研究では,RS画像に適したPSOD法を提案する。
提案手法は,最先端の画像レベルとポイントレベルの教師付き検出法と比較して性能が大幅に向上し,PSODとボックスレベルの教師付きオブジェクト検出の差を低減できる。
論文 参考訳(メタデータ) (2023-05-23T15:06:04Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - DAP: Detection-Aware Pre-training with Weak Supervision [37.336674323981285]
本稿では,オブジェクト検出タスクに対する検出認識事前学習(DAP)アプローチを提案する。
分類データセットをクラスアクティベーションマップに基づく弱教師付きオブジェクトローカライズ手法により検出データセットに変換する。
VOCやCOCOなどの下流検出タスクにおいて,サンプル効率と収束速度の両面で,DAPが従来の事前学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-30T19:48:30Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。