論文の概要: Look-into-Object: Self-supervised Structure Modeling for Object
Recognition
- arxiv url: http://arxiv.org/abs/2003.14142v1
- Date: Tue, 31 Mar 2020 12:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:24:35.293591
- Title: Look-into-Object: Self-supervised Structure Modeling for Object
Recognition
- Title(参考訳): look-into-object:オブジェクト認識のための自己教師付き構造モデリング
- Authors: Mohan Zhou, Yalong Bai, Wei Zhang, Tiejun Zhao, Tao Mei
- Abstract要約: 我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 71.68524003173219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most object recognition approaches predominantly focus on learning
discriminative visual patterns while overlooking the holistic object structure.
Though important, structure modeling usually requires significant manual
annotations and therefore is labor-intensive. In this paper, we propose to
"look into object" (explicitly yet intrinsically model the object structure)
through incorporating self-supervisions into the traditional framework. We show
the recognition backbone can be substantially enhanced for more robust
representation learning, without any cost of extra annotation and inference
speed. Specifically, we first propose an object-extent learning module for
localizing the object according to the visual patterns shared among the
instances in the same category. We then design a spatial context learning
module for modeling the internal structures of the object, through predicting
the relative positions within the extent. These two modules can be easily
plugged into any backbone networks during training and detached at inference
time. Extensive experiments show that our look-into-object approach (LIO)
achieves large performance gain on a number of benchmarks, including generic
object recognition (ImageNet) and fine-grained object recognition tasks (CUB,
Cars, Aircraft). We also show that this learning paradigm is highly
generalizable to other tasks such as object detection and segmentation (MS
COCO). Project page: https://github.com/JDAI-CV/LIO.
- Abstract(参考訳): ほとんどのオブジェクト認識アプローチは、概観的なオブジェクト構造を見落としながら、識別的なビジュアルパターンの学習に重点を置いている。
重要ではあるが、構造モデリングは通常、重要な手動アノテーションを必要とし、従って労働集約的である。
本稿では,従来の枠組みに自己監督を組み込んだ「対象」(具体的ながら本質的にオブジェクト構造をモデル化する)を提案する。
アノテーションや推論速度を犠牲にすることなく、より堅牢な表現学習を実現するために、認識バックボーンを大幅に拡張できることを示す。
具体的には、まず、同じカテゴリのインスタンス間で共有される視覚パターンに応じてオブジェクトをローカライズするオブジェクト-既存学習モジュールを提案する。
次に,対象の内部構造をモデル化するための空間的コンテキスト学習モジュールを,その範囲内の相対的な位置を予測して設計する。
これら2つのモジュールはトレーニング中にバックボーンネットワークに簡単に接続でき、推論時に分離することができる。
汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて,我々のルック・イン・オブジェクト・アプローチ(LIO)が大きなパフォーマンス向上を実現していることを示す。
また、この学習パラダイムは、オブジェクト検出やセグメンテーション(MS COCO)といった他のタスクに対して非常に一般化可能であることも示している。
プロジェクトページ: https://github.com/jdai-cv/lio。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。