論文の概要: Improving Long-tailed Object Detection with Image-Level Supervision by
Multi-Task Collaborative Learning
- arxiv url: http://arxiv.org/abs/2210.05568v1
- Date: Tue, 11 Oct 2022 16:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:40:10.795762
- Title: Improving Long-tailed Object Detection with Image-Level Supervision by
Multi-Task Collaborative Learning
- Title(参考訳): マルチタスク協調学習による画像レベルスーパービジョンによる長期物体検出の改善
- Authors: Bo Li, Yongqiang Yao, Jingru Tan, Xin Lu, Fengwei Yu, Ye Luo, Jianwei
Lu
- Abstract要約: マルチタスク協調方式において,画像レベルの監視を活用して検出能力を向上する新しいフレームワークCLISを提案する。
CLISは、テールカテゴリーを10.1ポイント改善した31.1のAPを達成し、新しい最先端技術を確立した。
- 参考スコア(独自算出の注目度): 18.496765732728164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data in real-world object detection often exhibits the long-tailed
distribution. Existing solutions tackle this problem by mitigating the
competition between the head and tail categories. However, due to the scarcity
of training samples, tail categories are still unable to learn discriminative
representations. Bringing more data into the training may alleviate the
problem, but collecting instance-level annotations is an excruciating task. In
contrast, image-level annotations are easily accessible but not fully
exploited. In this paper, we propose a novel framework CLIS (multi-task
Collaborative Learning with Image-level Supervision), which leverage
image-level supervision to enhance the detection ability in a multi-task
collaborative way. Specifically, there are an object detection task (consisting
of an instance-classification task and a localization task) and an
image-classification task in our framework, responsible for utilizing the two
types of supervision. Different tasks are trained collaboratively by three key
designs: (1) task-specialized sub-networks that learn specific representations
of different tasks without feature entanglement. (2) a siamese sub-network for
the image-classification task that shares its knowledge with the
instance-classification task, resulting in feature enrichment of detectors. (3)
a contrastive learning regularization that maintains representation
consistency, bridging feature gaps of different supervision. Extensive
experiments are conducted on the challenging LVIS dataset. Without
sophisticated loss engineering, CLIS achieves an overall AP of 31.1 with 10.1
point improvement on tail categories, establishing a new state-of-the-art. Code
will be at https://github.com/waveboo/CLIS.
- Abstract(参考訳): 実世界の物体検出のデータはしばしば長い尾の分布を示す。
既存の解決策は、頭と尾のカテゴリ間の競合を緩和することでこの問題に対処する。
しかし、トレーニングサンプルの不足のため、テールカテゴリは依然として識別表現を学ぶことができない。
より多くのデータをトレーニングに持ち込むことで問題が緩和されるかも知れませんが、インスタンスレベルのアノテーションの収集は難しい作業です。
対照的に、画像レベルのアノテーションは容易にアクセスできますが、完全には利用できません。
本稿では,画像レベルの監視を活用してマルチタスク協調的な検出能力を向上するCLIS(multi-task Collaborative Learning with Image-level Supervision)を提案する。
具体的には、オブジェクト検出タスク(インスタンス分類タスクとローカライゼーションタスクから構成される)と、この2つのタイプの監視を利用するためのイメージ分類タスクがある。
1)異なるタスクの特定の表現を特徴的絡み合いなく学習するタスク特化サブネットワーク。
2) 画像分類タスクのシアムサブネットワークは、その知識をインスタンス分類タスクと共有し、検出器の機能強化をもたらす。
3)表現一貫性を維持し、異なる監督の特徴ギャップを橋渡しする対照的な学習規則化。
挑戦的なLVISデータセット上で大規模な実験を行う。
高度な損失エンジニアリングがなければ、CLISは尾のカテゴリを10.1ポイント改善した31.1のAPを達成した。
コードはhttps://github.com/waveboo/CLIS。
関連論文リスト
- SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection [4.3512163406552]
本稿では、オブジェクトクラスが自然に長い尾の分布に従うような環境でのオブジェクト検出の課題に焦点を当てる。
既存のロングテール検出アプローチでは、外部のImageNetラベルを使用して、ローショットのトレーニングインスタンスを拡張している。
我々は、人間のアノテーションの負担を伴わずに簡単に収集できる、任意のラベルのない画像を活用するための、より汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-28T06:29:40Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。