論文の概要: A Survey on Training-free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.22209v1
- Date: Wed, 28 May 2025 10:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.553252
- Title: A Survey on Training-free Open-Vocabulary Semantic Segmentation
- Title(参考訳): 学習自由なオープン語彙セマンティックセマンティックセグメンテーションに関する調査
- Authors: Naomi Kombol, Ivan Martinović, Siniša Šegvić,
- Abstract要約: この調査では、トレーニングなしのオープン語彙セマンティックセマンティックセグメンテーションにおける歴史、ニュアンス、アイデア開発、最先端技術について取り上げる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation is one of the most fundamental tasks in image understanding with a long history of research, and subsequently a myriad of different approaches. Traditional methods strive to train models up from scratch, requiring vast amounts of computational resources and training data. In the advent of moving to open-vocabulary semantic segmentation, which asks models to classify beyond learned categories, large quantities of finely annotated data would be prohibitively expensive. Researchers have instead turned to training-free methods where they leverage existing models made for tasks where data is more easily acquired. Specifically, this survey will cover the history, nuance, idea development and the state-of-the-art in training-free open-vocabulary semantic segmentation that leverages existing multi-modal classification models. We will first give a preliminary on the task definition followed by an overview of popular model archetypes and then spotlight over 30 approaches split into broader research branches: purely CLIP-based, those leveraging auxiliary visual foundation models and ones relying on generative methods. Subsequently, we will discuss the limitations and potential problems of current research, as well as provide some underexplored ideas for future study. We believe this survey will serve as a good onboarding read to new researchers and spark increased interest in the area.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)は、画像理解における最も基本的な課題の1つであり、長い研究の歴史を持ち、その後は様々なアプローチがある。
従来の手法では、モデルをゼロからトレーニングし、膨大な量の計算リソースとトレーニングデータを必要とする。
学習カテゴリを超えて分類するようモデルに求めるオープン語彙セマンティックセマンティックセマンティクスへの移行の出現では、大量の微調整されたデータが違法に高価になる。
代わりに、データ取得がより容易なタスクのために作られた既存のモデルを活用する、トレーニング不要の手法に切り替えた。
具体的には、既存のマルチモーダル分類モデルを活用したトレーニング自由なオープン語彙セマンティックセマンティックセグメンテーションの歴史、ニュアンス、アイデア開発、そして最先端技術について紹介する。
まず、タスク定義に関する予備的な説明を行い、次に人気のモデルアーチタイプの概要と、30以上のアプローチのスポットライトを、純粋にCLIPベースの、補助的な視覚基盤モデルを利用する、ジェネレーティブな方法に依存する、より広範な研究分野に分割する。
その後、現在の研究の限界と潜在的な問題について議論するとともに、今後の研究に未検討のアイデアを提示する。
われわれはこの調査が新たな研究者への良い読み上げとなり、この分野への関心が高まりそうだと考えている。
関連論文リスト
- A Coreset Selection of Coreset Selection Literature: Introduction and Recent Advances [8.319613769928331]
コアセットの選択は、機械学習に不可欠なパターンを保存する大規模なデータセットの、小さくて代表的なサブセットを見つけるという課題を目標としている。
この調査は、コアセット研究の3つの主要な行を単一の分類にまとめることで、より包括的な見解を示す。
提案するサブフィールドは,部分モジュラー定式化や双レベル最適化,ラベルなしデータセットの擬似ラベル化の最近の進歩など,既存の研究によって見落とされがちである。
論文 参考訳(メタデータ) (2025-05-23T12:18:34Z) - Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
多くのアプローチが、数発のアクション認識において顕著な進歩を導いている。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future [6.4105103117533755]
分類学は、まず様々なタスクと方法論を整理するために開発された。
提案した分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティクスのセグメンテーション、3Dとビデオの理解など、さまざまなタスクにまたがって普遍的である。
論文 参考訳(メタデータ) (2023-07-18T12:52:49Z) - Few Shot Semantic Segmentation: a review of methodologies, benchmarks, and open challenges [5.0243930429558885]
Few-Shot Semanticはコンピュータビジョンの新しいタスクであり、いくつかの例で新しいセマンティッククラスをセグメンテーションできるモデルを設計することを目的としている。
本稿では、Few-Shot Semanticの総合的な調査からなり、その進化を辿り、様々なモデル設計を探求する。
論文 参考訳(メタデータ) (2023-04-12T13:07:37Z) - Unsupervised Domain Adaptation for Semantic Image Segmentation: a
Comprehensive Survey [24.622211579286127]
この調査は、この信じられないほど急速に成長している分野の5年間をまとめたものです。
最も重要なセマンティックセグメンテーション手法を提案する。
マルチドメイン学習、ドメイン一般化、テスト時間適応、ソースフリードメイン適応といった新しいトレンドを紹介します。
論文 参考訳(メタデータ) (2021-12-06T18:47:41Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。