論文の概要: Is Object Detection Necessary for Human-Object Interaction Recognition?
- arxiv url: http://arxiv.org/abs/2107.13083v1
- Date: Tue, 27 Jul 2021 21:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 14:10:32.784433
- Title: Is Object Detection Necessary for Human-Object Interaction Recognition?
- Title(参考訳): 物体検出は人間と物体のインタラクション認識に必要か?
- Authors: Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Zicheng
Liu, Jenq-Neng Hwang
- Abstract要約: 本稿では、物体の位置と人間のポーズの監督を使わずに、画像レベルでの人間と物体の相互作用(HOI)認識を再考する。
既存の検出教師付きアプローチとは対照的に,検出不要なHOI認識と命名する。
- 参考スコア(独自算出の注目度): 37.61038047282247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits human-object interaction (HOI) recognition at image level
without using supervisions of object location and human pose. We name it
detection-free HOI recognition, in contrast to the existing
detection-supervised approaches which rely on object and keypoint detections to
achieve state of the art. With our method, not only the detection supervision
is evitable, but superior performance can be achieved by properly using
image-text pre-training (such as CLIP) and the proposed Log-Sum-Exp Sign
(LSE-Sign) loss function. Specifically, using text embeddings of class labels
to initialize the linear classifier is essential for leveraging the CLIP
pre-trained image encoder. In addition, LSE-Sign loss facilitates learning from
multiple labels on an imbalanced dataset by normalizing gradients over all
classes in a softmax format. Surprisingly, our detection-free solution achieves
60.5 mAP on the HICO dataset, outperforming the detection-supervised state of
the art by 13.4 mAP
- Abstract(参考訳): 本稿では,物体の位置とポーズの監視を使わずに,画像レベルでの人間-物体間インタラクション(hoi)認識を再検討する。
現状を達成するために,オブジェクトやキーポイント検出に依存する既存の検出教師付きアプローチとは対照的に,検出不要なhoi認識と呼ぶ。
提案手法では,検出監視だけでなく,画像テキスト事前学習(CLIPなど)とLog-Sum-Exp Sign (LSE-Sign)損失関数を適切に利用することにより,優れた性能を実現することができる。
具体的には、CLIP事前訓練画像エンコーダを利用するには、クラスラベルのテキスト埋め込みを使用して線形分類器を初期化することが不可欠である。
加えて、LSE-Sign Losは、ソフトマックスフォーマットですべてのクラスに勾配を正規化することで、不均衡なデータセット上の複数のラベルから学習を容易にする。
驚いたことに、我々の検出不要解はHICOデータセット上で60.5 mAPを達成し、13.4 mAPによる検出監督状態を上回った。
関連論文リスト
- Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - Learning Camouflaged Object Detection from Noisy Pseudo Label [60.9005578956798]
本稿では,まず,弱い半教師付きカモフラージュオブジェクト検出(COD)法を提案する。
予算効率が高く高精度なカモフラージュされたオブジェクトセグメンテーションを目標とし、完全にラベル付けされた画像が極めて限られている。
本稿では,早期の学習段階において,モデルが正しい画素の学習を容易にするノイズ補正損失を提案する。
完全ラベル付きデータの20%しか使用しない場合,本手法は最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T04:53:51Z) - Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - Learning Remote Sensing Object Detection with Single Point Supervision [17.12725535531483]
Pointly Supervised Object Detection (PSOD) は、ボックスレベルの監視対象検出と比較してラベリングコストが低いため、かなりの関心を集めている。
本研究では,RS画像に適したPSOD法を提案する。
提案手法は,最先端の画像レベルとポイントレベルの教師付き検出法と比較して性能が大幅に向上し,PSODとボックスレベルの教師付きオブジェクト検出の差を低減できる。
論文 参考訳(メタデータ) (2023-05-23T15:06:04Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Decoupling Object Detection from Human-Object Interaction Recognition [37.133695677465376]
DEFRは、物体の位置や人間のポーズを使わずに、画像レベルでのヒューマン・オブジェクト・インタラクション(HOI)を認識できる。
本研究では,検出不要な手法の性能向上のための2つの知見を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:01:49Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。