Fugu-MT 論文翻訳(概要): A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future

論文の概要: A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future

arxiv url: http://arxiv.org/abs/2307.09220v1
Date: Tue, 18 Jul 2023 12:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-19 14:42:21.115631
Title: A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future
Title（参考訳）: オープン語彙の検出とセグメンテーションに関する調査:過去,現在,未来
Authors: Chaoyang Zhu, and Long Chen
Abstract要約: タスクや方法論の種類に応じて分類法を開発する。提案する分類法は, オブジェクト検出, セマンティック/インスタンス/パノプティックセグメンテーション, 3次元シーン, ビデオ理解など, さまざまなタスクにまたがって普遍的である。
参考スコア（独自算出の注目度）: 5.093388615302086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the most fundamental tasks of computer vision, object detection and segmentation have made tremendous progress in the deep learning era. Due to the expensive manual labeling, the annotated categories in existing datasets are often small-scale and pre-defined, i.e., state-of-the-art detectors and segmentors fail to generalize beyond the closed-vocabulary. To resolve this limitation, the last few years have witnessed increasing attention toward Open-Vocabulary Detection (OVD) and Segmentation (OVS). In this survey, we provide a comprehensive review on the past and recent development of OVD and OVS. To this end, we develop a taxonomy according to the type of task and methodology. We find that the permission and usage of weak supervision signals can well discriminate different methodologies, including: visual-semantic space mapping, novel visual feature synthesis, region-aware training, pseudo-labeling, knowledge distillation-based, and transfer learning-based. The proposed taxonomy is universal across different tasks, covering object detection, semantic/instance/panoptic segmentation, 3D scene and video understanding. In each category, its main principles, key challenges, development routes, strengths, and weaknesses are thoroughly discussed. In addition, we benchmark each task along with the vital components of each method. Finally, several promising directions are provided to stimulate future research.
Abstract（参考訳）: コンピュータビジョンの最も基本的なタスクとして、オブジェクト検出とセグメンテーションはディープラーニング時代において大きな進歩を遂げた。高価な手動ラベリングのため、既存のデータセットの注釈付きカテゴリは、しばしば小規模で事前定義された、すなわち最先端の検出器とセグメンタは、閉語彙を超えて一般化することができない。この制限を解決するために、ここ数年はOpen-Vocabulary Detection (OVD) と Segmentation (OVS) に注目が集まっている。本稿では,OVD と OVS の過去および最近の開発状況について概観する。この目的のために,タスクや方法論の種類に応じて分類法を開発する。弱い監視信号の許可と使用は、視覚意味空間マッピング、新しい視覚特徴合成、地域認識トレーニング、擬似ラベル付け、知識蒸留ベース、伝達学習ベースなど、様々な手法を適切に識別することができる。提案する分類法は, オブジェクト検出, セマンティック/インスタンス/パノプティックセグメンテーション, 3次元シーン, ビデオ理解など, さまざまなタスクに共通する。各カテゴリにおいて、主な原則、鍵となる課題、開発経路、強み、弱みを徹底的に議論する。さらに、各メソッドの重要なコンポーネントとともに、各タスクをベンチマークします。最後に、将来の研究を刺激するためにいくつかの有望な方向が提供される。

関連論文リスト

Geospatial-Reasoning-Driven Vocabulary-Agnostic Remote Sensing Semantic Segmentation [13.743073097114461]
オープンボキャブラリセマンティックセグメンテーションはリモートセンシングにおける有望な研究方向として浮上している。本研究では,Geospatial Reasoning Chain-of-Thought(GR-CoT)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-09T02:09:21Z)
A Survey on Training-free Open-Vocabulary Semantic Segmentation [0.0]
この調査では、トレーニングなしのオープン語彙セマンティックセマンティックセグメンテーションにおける歴史、ニュアンス、アイデア開発、最先端技術について取り上げる。
論文参考訳（メタデータ） (2025-05-28T10:37:52Z)
Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文参考訳（メタデータ） (2024-09-09T07:31:16Z)
A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。多くのアプローチが、数発のアクション認識において顕著な進歩を導いている。
論文参考訳（メタデータ） (2024-07-20T03:53:32Z)
Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-06T09:57:56Z)
The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文参考訳（メタデータ） (2023-11-29T10:40:52Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
A Survey on Continual Semantic Segmentation: Theory, Challenge, Method and Application [7.595948982978669]
継続的学習は、漸進的学習または生涯学習としても知られ、ディープラーニングとAIシステムの最前線にある。本稿では,連続的セマンティックセグメンテーション(CSS)について概説する。現在のCSSモデルを、データ再生とデータフリーセットを含む2つのメインブランチに分類し、分類する。また、多様なアプリケーションシナリオと開発傾向を持つ4つのCSS特長も導入しています。
論文参考訳（メタデータ） (2023-10-22T11:53:56Z)
Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文参考訳（メタデータ） (2023-06-28T02:33:06Z)
A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction [115.9169213834476]
本稿では,ラベル効率の高いセグメンテーション手法について概説する。まず,様々な種類の弱いラベルによって提供される監督に従って,これらの手法を整理する分類法を開発する。次に,既存のラベル効率のセグメンテーション手法を統一的な視点から要約する。
論文参考訳（メタデータ） (2022-07-04T06:21:01Z)
Recent Few-Shot Object Detection Algorithms: A Survey with Performance Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。 FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文参考訳（メタデータ） (2022-03-27T04:11:28Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)
Unsupervised Domain Adaptation in Semantic Segmentation: a Review [22.366638308792734]
本研究の目的は, セマンティックセグメンテーションのための深層ネットワークのUnsupervised Domain Adaptation (UDA) の最近の進歩について概説することである。
論文参考訳（メタデータ） (2020-05-21T20:10:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。