論文の概要: Learning to recognize occluded and small objects with partial inputs
- arxiv url: http://arxiv.org/abs/2310.18517v1
- Date: Fri, 27 Oct 2023 22:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:07:09.018942
- Title: Learning to recognize occluded and small objects with partial inputs
- Title(参考訳): 部分入力による隠蔽物体と小物体の認識
- Authors: Hasib Zunair and A. Ben Hamza
- Abstract要約: Masked Supervised Learningは、マルチラベル画像認識のための1段階のモデルに依存しない学習パラダイムである。
MSLはランダムマスキングに頑健であり,非マスキング物体の認識に有効であることを示す。
- 参考スコア(独自算出の注目度): 8.460351690226817
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recognizing multiple objects in an image is challenging due to occlusions,
and becomes even more so when the objects are small. While promising, existing
multi-label image recognition models do not explicitly learn context-based
representations, and hence struggle to correctly recognize small and occluded
objects. Intuitively, recognizing occluded objects requires knowledge of
partial input, and hence context. Motivated by this intuition, we propose
Masked Supervised Learning (MSL), a single-stage, model-agnostic learning
paradigm for multi-label image recognition. The key idea is to learn
context-based representations using a masked branch and to model label
co-occurrence using label consistency. Experimental results demonstrate the
simplicity, applicability and more importantly the competitive performance of
MSL against previous state-of-the-art methods on standard multi-label image
recognition benchmarks. In addition, we show that MSL is robust to random
masking and demonstrate its effectiveness in recognizing non-masked objects.
Code and pretrained models are available on GitHub.
- Abstract(参考訳): 画像内の複数のオブジェクトを認識することは、オクルージョンのため困難であり、オブジェクトが小さい場合にはさらに難しくなります。
有望ではあるが、既存のマルチラベル画像認識モデルはコンテキストベースの表現を明示的に学習しないため、小さく、隠蔽されたオブジェクトを正しく認識するのに苦労する。
直感的には、隠蔽対象を認識するには部分的な入力の知識が必要である。
そこで本研究では,マルチラベル画像認識のための単段モデル非依存学習パラダイムであるmasked supervised learning (msl)を提案する。
重要なアイデアは、マスクされたブランチを使ってコンテキストベースの表現を学習し、ラベル一貫性を使ってラベル共起をモデル化することだ。
実験により,従来のマルチラベル画像認識ベンチマークに対するMSLの簡易性,適用性,さらに重要な性能が示された。
さらに,MSLはランダムマスキングに頑健であり,非マスキング物体の認識に有効であることを示す。
コードと事前トレーニングされたモデルはgithubで入手できる。
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Multi-Label Self-Supervised Learning with Scene Images [21.549234013998255]
本稿では,シーン/マルチラベル画像SSLを多ラベル分類問題として扱うことで,画質の表現を学習可能であることを示す。
提案手法はMulti-Label Self-supervised Learning (MLS) と呼ばれる。
論文 参考訳(メタデータ) (2023-08-07T04:04:22Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Simpler Does It: Generating Semantic Labels with Objectness Guidance [32.81128493853064]
本稿では、画像のトレーニングのための擬似ラベルを生成する新しいフレームワークについて述べる。
擬似ラベルを生成するには、(i)オブジェクトライクな領域を認識することを学習するクラス非依存のオブジェクトネスネットワーク、(ii)イメージレベルまたはバウンディングボックスアノテーションのいずれからの情報を組み合わせる。
本研究では,対象性ネットワークを自然に活用して,未知のカテゴリに対して対象のような領域を生成する方法を示すことによって,アプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-10-20T01:52:05Z) - Weakly-Supervised Saliency Detection via Salient Object Subitizing [57.17613373230722]
我々は,クラス非依存であるため,弱い監督としてサリエンシー・サブイタライジングを導入する。
これにより、監視はサリエンシー検出の特性と整合することができます。
5つのベンチマークデータセットに対して広範な実験を行う。
論文 参考訳(メタデータ) (2021-01-04T12:51:45Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。