論文の概要: A Survey on Training-free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.22209v1
- Date: Wed, 28 May 2025 10:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.553252
- Title: A Survey on Training-free Open-Vocabulary Semantic Segmentation
- Title(参考訳): 学習自由なオープン語彙セマンティックセマンティックセグメンテーションに関する調査
- Authors: Naomi Kombol, Ivan Martinović, Siniša Šegvić,
- Abstract要約: この調査では、トレーニングなしのオープン語彙セマンティックセマンティックセグメンテーションにおける歴史、ニュアンス、アイデア開発、最先端技術について取り上げる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation is one of the most fundamental tasks in image understanding with a long history of research, and subsequently a myriad of different approaches. Traditional methods strive to train models up from scratch, requiring vast amounts of computational resources and training data. In the advent of moving to open-vocabulary semantic segmentation, which asks models to classify beyond learned categories, large quantities of finely annotated data would be prohibitively expensive. Researchers have instead turned to training-free methods where they leverage existing models made for tasks where data is more easily acquired. Specifically, this survey will cover the history, nuance, idea development and the state-of-the-art in training-free open-vocabulary semantic segmentation that leverages existing multi-modal classification models. We will first give a preliminary on the task definition followed by an overview of popular model archetypes and then spotlight over 30 approaches split into broader research branches: purely CLIP-based, those leveraging auxiliary visual foundation models and ones relying on generative methods. Subsequently, we will discuss the limitations and potential problems of current research, as well as provide some underexplored ideas for future study. We believe this survey will serve as a good onboarding read to new researchers and spark increased interest in the area.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)は、画像理解における最も基本的な課題の1つであり、長い研究の歴史を持ち、その後は様々なアプローチがある。
従来の手法では、モデルをゼロからトレーニングし、膨大な量の計算リソースとトレーニングデータを必要とする。
学習カテゴリを超えて分類するようモデルに求めるオープン語彙セマンティックセマンティックセマンティクスへの移行の出現では、大量の微調整されたデータが違法に高価になる。
代わりに、データ取得がより容易なタスクのために作られた既存のモデルを活用する、トレーニング不要の手法に切り替えた。
具体的には、既存のマルチモーダル分類モデルを活用したトレーニング自由なオープン語彙セマンティックセマンティックセグメンテーションの歴史、ニュアンス、アイデア開発、そして最先端技術について紹介する。
まず、タスク定義に関する予備的な説明を行い、次に人気のモデルアーチタイプの概要と、30以上のアプローチのスポットライトを、純粋にCLIPベースの、補助的な視覚基盤モデルを利用する、ジェネレーティブな方法に依存する、より広範な研究分野に分割する。
その後、現在の研究の限界と潜在的な問題について議論するとともに、今後の研究に未検討のアイデアを提示する。
われわれはこの調査が新たな研究者への良い読み上げとなり、この分野への関心が高まりそうだと考えている。
関連論文リスト
- A Coreset Selection of Coreset Selection Literature: Introduction and Recent Advances [8.319613769928331]
コアセットの選択は、機械学習に不可欠なパターンを保存する大規模なデータセットの、小さくて代表的なサブセットを見つけるという課題を目標としている。
この調査は、コアセット研究の3つの主要な行を単一の分類にまとめることで、より包括的な見解を示す。
提案するサブフィールドは,部分モジュラー定式化や双レベル最適化,ラベルなしデータセットの擬似ラベル化の最近の進歩など,既存の研究によって見落とされがちである。
論文 参考訳(メタデータ) (2025-05-23T12:18:34Z) - Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future [6.4105103117533755]
分類学は、まず様々なタスクと方法論を整理するために開発された。
提案した分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティクスのセグメンテーション、3Dとビデオの理解など、さまざまなタスクにまたがって普遍的である。
論文 参考訳(メタデータ) (2023-07-18T12:52:49Z) - Few Shot Semantic Segmentation: a review of methodologies, benchmarks, and open challenges [5.0243930429558885]
Few-Shot Semanticはコンピュータビジョンの新しいタスクであり、いくつかの例で新しいセマンティッククラスをセグメンテーションできるモデルを設計することを目的としている。
本稿では、Few-Shot Semanticの総合的な調査からなり、その進化を辿り、様々なモデル設計を探求する。
論文 参考訳(メタデータ) (2023-04-12T13:07:37Z) - Unsupervised Domain Adaptation for Semantic Image Segmentation: a
Comprehensive Survey [24.622211579286127]
この調査は、この信じられないほど急速に成長している分野の5年間をまとめたものです。
最も重要なセマンティックセグメンテーション手法を提案する。
マルチドメイン学習、ドメイン一般化、テスト時間適応、ソースフリードメイン適応といった新しいトレンドを紹介します。
論文 参考訳(メタデータ) (2021-12-06T18:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。