論文の概要: A Survey on Open-Vocabulary Detection and Segmentation: Past, Present,
and Future
- arxiv url: http://arxiv.org/abs/2307.09220v1
- Date: Tue, 18 Jul 2023 12:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:42:21.115631
- Title: A Survey on Open-Vocabulary Detection and Segmentation: Past, Present,
and Future
- Title(参考訳): オープン語彙の検出とセグメンテーションに関する調査:過去,現在,未来
- Authors: Chaoyang Zhu, and Long Chen
- Abstract要約: タスクや方法論の種類に応じて分類法を開発する。
提案する分類法は, オブジェクト検出, セマンティック/インスタンス/パノプティックセグメンテーション, 3次元シーン, ビデオ理解など, さまざまなタスクにまたがって普遍的である。
- 参考スコア(独自算出の注目度): 5.093388615302086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the most fundamental tasks of computer vision, object detection and
segmentation have made tremendous progress in the deep learning era. Due to the
expensive manual labeling, the annotated categories in existing datasets are
often small-scale and pre-defined, i.e., state-of-the-art detectors and
segmentors fail to generalize beyond the closed-vocabulary. To resolve this
limitation, the last few years have witnessed increasing attention toward
Open-Vocabulary Detection (OVD) and Segmentation (OVS). In this survey, we
provide a comprehensive review on the past and recent development of OVD and
OVS. To this end, we develop a taxonomy according to the type of task and
methodology. We find that the permission and usage of weak supervision signals
can well discriminate different methodologies, including: visual-semantic space
mapping, novel visual feature synthesis, region-aware training,
pseudo-labeling, knowledge distillation-based, and transfer learning-based. The
proposed taxonomy is universal across different tasks, covering object
detection, semantic/instance/panoptic segmentation, 3D scene and video
understanding. In each category, its main principles, key challenges,
development routes, strengths, and weaknesses are thoroughly discussed. In
addition, we benchmark each task along with the vital components of each
method. Finally, several promising directions are provided to stimulate future
research.
- Abstract(参考訳): コンピュータビジョンの最も基本的なタスクとして、オブジェクト検出とセグメンテーションはディープラーニング時代において大きな進歩を遂げた。
高価な手動ラベリングのため、既存のデータセットの注釈付きカテゴリは、しばしば小規模で事前定義された、すなわち最先端の検出器とセグメンタは、閉語彙を超えて一般化することができない。
この制限を解決するために、ここ数年はOpen-Vocabulary Detection (OVD) と Segmentation (OVS) に注目が集まっている。
本稿では,OVD と OVS の過去および最近の開発状況について概観する。
この目的のために,タスクや方法論の種類に応じて分類法を開発する。
弱い監視信号の許可と使用は、視覚意味空間マッピング、新しい視覚特徴合成、地域認識トレーニング、擬似ラベル付け、知識蒸留ベース、伝達学習ベースなど、様々な手法を適切に識別することができる。
提案する分類法は, オブジェクト検出, セマンティック/インスタンス/パノプティックセグメンテーション, 3次元シーン, ビデオ理解など, さまざまなタスクに共通する。
各カテゴリにおいて、主な原則、鍵となる課題、開発経路、強み、弱みを徹底的に議論する。
さらに、各メソッドの重要なコンポーネントとともに、各タスクをベンチマークします。
最後に、将来の研究を刺激するためにいくつかの有望な方向が提供される。
関連論文リスト
- Few-Shot Learning on Graphs: from Meta-learning to Pre-training and
Prompting [56.25730255038747]
この調査は、最近の展開を合成し、比較洞察を提供し、将来の方向性を特定するための取り組みである。
我々は,既存の研究をメタラーニングアプローチ,事前学習アプローチ,ハイブリッドアプローチの3つの主要なファミリーに体系的に分類した。
これらの手法間の関係を解析し,その強みと限界を比較する。
論文 参考訳(メタデータ) (2024-02-02T14:32:42Z) - A Survey on Continual Semantic Segmentation: Theory, Challenge, Method
and Application [8.973607475910068]
継続的学習は、漸進的学習または生涯学習としても知られ、ディープラーニングとAIシステムの最前線にある。
本稿では,連続的セマンティックセグメンテーション(CSS:Continuous semantic segmentation, 連続意味セグメンテーション)について概説する。
現在のCSSモデルを、textitdata-replay と textitdata-free セットを含む2つのメインブランチに分類し、分類する。
各ブランチにおいて、対応するアプローチは類似性に基づくクラスタ化および網羅的解析であり、関連するデータセットの質的比較と定量的再現に続く。
論文 参考訳(メタデータ) (2023-10-22T11:53:56Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - A Survey on Label-efficient Deep Segmentation: Bridging the Gap between
Weak Supervision and Dense Prediction [115.9169213834476]
本稿では,ラベル効率の高いセグメンテーション手法について概説する。
まず,様々な種類の弱いラベルによって提供される監督に従って,これらの手法を整理する分類法を開発する。
次に,既存のラベル効率のセグメンテーション手法を統一的な視点から要約する。
論文 参考訳(メタデータ) (2022-07-04T06:21:01Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - Panoptic Segmentation: A Review [2.270719568619559]
本稿では,既存の汎視的セグメンテーション手法の包括的レビューを行う。
パノプティクスのセグメンテーションは現在、ビデオ監視、群衆のカウント、自動運転、医療画像分析などの画像シーンに関する、より精巧な知識を得るために研究中である。
論文 参考訳(メタデータ) (2021-11-19T14:40:24Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Unsupervised Domain Adaptation in Semantic Segmentation: a Review [22.366638308792734]
本研究の目的は, セマンティックセグメンテーションのための深層ネットワークのUnsupervised Domain Adaptation (UDA) の最近の進歩について概説することである。
論文 参考訳(メタデータ) (2020-05-21T20:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。