論文の概要: Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning
- arxiv url: http://arxiv.org/abs/2303.01313v1
- Date: Thu, 2 Mar 2023 14:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:51:31.089121
- Title: Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning
- Title(参考訳): 事前誘導バイレベル表現学習による弱教師付きHOI検出
- Authors: Bo Wan, Yongfei Liu, Desen Zhou, Tinne Tuytelaars, Xuming He
- Abstract要約: ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
- 参考スコア(独自算出の注目度): 66.00600682711995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human object interaction (HOI) detection plays a crucial role in
human-centric scene understanding and serves as a fundamental building-block
for many vision tasks. One generalizable and scalable strategy for HOI
detection is to use weak supervision, learning from image-level annotations
only. This is inherently challenging due to ambiguous human-object
associations, large search space of detecting HOIs and highly noisy training
signal. A promising strategy to address those challenges is to exploit
knowledge from large-scale pretrained models (e.g., CLIP), but a direct
knowledge distillation strategy~\citep{liao2022gen} does not perform well on
the weakly-supervised setting. In contrast, we develop a CLIP-guided HOI
representation capable of incorporating the prior knowledge at both image level
and HOI instance level, and adopt a self-taught mechanism to prune incorrect
human-object associations. Experimental results on HICO-DET and V-COCO show
that our method outperforms the previous works by a sizable margin, showing the
efficacy of our HOI representation.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
これらの課題に対処する有望な戦略は、大規模な事前訓練されたモデル(例えばクリップ)からの知識を活用することであるが、直接知識蒸留戦略~\citep{liao2022gen} は、弱い教師付き設定ではうまく機能しない。
対照的に、画像レベルとHOIインスタンスレベルの両方で事前の知識を取り入れたCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
HICO-DET と V-COCO による実験結果から,本手法は従来よりも大きなマージンを達成し,HOI 表現の有効性を示した。
関連論文リスト
- HASSOD: Hierarchical Adaptive Self-Supervised Object Detection [29.776467276826747]
Hierarchical Adaptive Self-Supervised Object Detection (HASSOD)は、オブジェクトを検出し、人間の監督なしにそれらの構成を理解することを学ぶ新しいアプローチである。
我々は、自己教師付き視覚表現に基づいて、領域をオブジェクトマスクにグループ化する階層的適応クラスタリング戦略を採用した。
HASSODは、マスク間のカバレッジ関係を分析し、木構造を構築することで、構成の観点からオブジェクトの階層的なレベルを識別する。
論文 参考訳(メタデータ) (2024-02-05T18:59:41Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Detecting Human-Object Interaction with Mixed Supervision [0.0]
人間の物体の相互作用(HOI)検出は、画像の理解と推論において重要な課題である。
本稿では,モーメント非依存学習の特定の設計のおかげで,混合教師付きHOI検出パイプラインを提案する。
本手法は,挑戦的なHICO-DETデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-10T08:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。