論文の概要: HASSOD: Hierarchical Adaptive Self-Supervised Object Detection
- arxiv url: http://arxiv.org/abs/2402.03311v1
- Date: Mon, 5 Feb 2024 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:09:34.873543
- Title: HASSOD: Hierarchical Adaptive Self-Supervised Object Detection
- Title(参考訳): HASSOD:階層型適応型自己監視オブジェクト検出
- Authors: Shengcao Cao, Dhiraj Joshi, Liang-Yan Gui, Yu-Xiong Wang
- Abstract要約: Hierarchical Adaptive Self-Supervised Object Detection (HASSOD)は、オブジェクトを検出し、人間の監督なしにそれらの構成を理解することを学ぶ新しいアプローチである。
我々は、自己教師付き視覚表現に基づいて、領域をオブジェクトマスクにグループ化する階層的適応クラスタリング戦略を採用した。
HASSODは、マスク間のカバレッジ関係を分析し、木構造を構築することで、構成の観点からオブジェクトの階層的なレベルを識別する。
- 参考スコア(独自算出の注目度): 29.776467276826747
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The human visual perception system demonstrates exceptional capabilities in
learning without explicit supervision and understanding the part-to-whole
composition of objects. Drawing inspiration from these two abilities, we
propose Hierarchical Adaptive Self-Supervised Object Detection (HASSOD), a
novel approach that learns to detect objects and understand their compositions
without human supervision. HASSOD employs a hierarchical adaptive clustering
strategy to group regions into object masks based on self-supervised visual
representations, adaptively determining the number of objects per image.
Furthermore, HASSOD identifies the hierarchical levels of objects in terms of
composition, by analyzing coverage relations between masks and constructing
tree structures. This additional self-supervised learning task leads to
improved detection performance and enhanced interpretability. Lastly, we
abandon the inefficient multi-round self-training process utilized in prior
methods and instead adapt the Mean Teacher framework from semi-supervised
learning, which leads to a smoother and more efficient training process.
Through extensive experiments on prevalent image datasets, we demonstrate the
superiority of HASSOD over existing methods, thereby advancing the state of the
art in self-supervised object detection. Notably, we improve Mask AR from 20.2
to 22.5 on LVIS, and from 17.0 to 26.0 on SA-1B. Project page:
https://HASSOD-NeurIPS23.github.io.
- Abstract(参考訳): 人間の視覚知覚システムは、明示的な監督や全体構成を理解することなく、学習において例外的な能力を示す。
これら2つの能力からインスピレーションを得た階層型適応型自己監視オブジェクト検出(HASSOD)を提案する。
HASSODは階層的な適応クラスタリング戦略を用いて、自己教師付き視覚表現に基づいて領域をオブジェクトマスクに分類し、画像当たりのオブジェクト数を適応的に決定する。
さらにhasodは、マスク間のカバレッジ関係を分析し、ツリー構造を構築することで、構成の観点からオブジェクトの階層レベルを識別する。
この自己教師付き学習タスクは、検出性能の向上と解釈可能性の向上につながる。
最後に,従来手法で用いた非効率なマルチラウンド自己学習プロセスを捨て,半教師付き学習から平均教師の枠組みを取り入れることで,よりスムーズで効率的な学習プロセスを実現する。
画像データセットに関する大規模な実験を通じて,既存の手法よりもHASSODの方が優れていることを示す。
特に、LVISでは20.2から22.5に、SA-1Bでは17.0から26.0に改善した。
プロジェクトページ: https://HASSOD-NeurIPS23.github.io
関連論文リスト
- Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Using Feature Alignment Can Improve Clean Average Precision and
Adversarial Robustness in Object Detection [11.674302325688862]
中間層の特徴アライメントを用いることで,オブジェクト検出におけるクリーンなapとロバスト性が向上する。
提案手法の有効性を検証するため,PASCAL VOCおよびMS-COCOデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-12-08T11:54:39Z) - Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。
提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文 参考訳(メタデータ) (2020-06-20T02:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。