Fugu-MT 論文翻訳(概要): Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO

論文の概要: Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO

arxiv url: http://arxiv.org/abs/2406.19057v2
Date: Sun, 30 Jun 2024 07:54:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 12:30:11.879381
Title: Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO
Title（参考訳）: 自動画像データアノテーションのためのセグメント任意のモデル:DINOのテキストプロンプトを用いた実証的研究
Authors: Fuseini Mumuni, Alhassan Mumuni,
Abstract要約: DINOとSAM(Segment Anything Model)は、ゼロショットオブジェクトの検出と画像のセグメンテーションにおいて、優れたパフォーマンスを実現している。評価可能な信頼度スコアを持つ偽陽性検出が画像領域を占有しており、通常、相対的なサイズでフィルタリング可能であることを示す。また、手動によるアプローチよりもセグメンテーション性能とアノテーションの保存時間が大幅に改善されたことを報告した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Grounding DINO and the Segment Anything Model (SAM) have achieved impressive performance in zero-shot object detection and image segmentation, respectively. Together, they have a great potential to revolutionize applications in zero-shot semantic segmentation or data annotation. Yet, in specialized domains like medical image segmentation, objects of interest (e.g., organs, tissues, and tumors) may not fall in existing class names. To address this problem, the referring expression comprehension (REC) ability of Grounding DINO is leveraged to detect arbitrary targets by their language descriptions. However, recent studies have highlighted severe limitation of the REC framework in this application setting owing to its tendency to make false positive predictions when the target is absent in the given image. And, while this bottleneck is central to the prospect of open-set semantic segmentation, it is still largely unknown how much improvement can be achieved by studying the prediction errors. To this end, we perform empirical studies on six publicly available datasets across different domains and reveal that these errors consistently follow a predictable pattern and can, thus, be mitigated by a simple strategy. Specifically, we show that false positive detections with appreciable confidence scores generally occupy large image areas and can usually be filtered by their relative sizes. More importantly, we expect these observations to inspire future research in improving REC-based detection and automated segmentation. Meanwhile, we evaluate the performance of SAM on multiple datasets from various specialized domains and report significant improvements in segmentation performance and annotation time savings over manual approaches.
Abstract（参考訳）: グラウンディングDINOとSAMは、ゼロショットオブジェクト検出とイメージセグメンテーションにおいて、それぞれ優れた性能を達成している。同時に、ゼロショットセマンティックセグメンテーションやデータアノテーションのアプリケーションに革命をもたらす大きな可能性を秘めている。しかし、医学的イメージセグメンテーションのような特殊なドメインでは、興味の対象(臓器、組織、腫瘍など)は既存のクラス名に該当しない可能性がある。この問題に対処するために、DINOの参照表現理解(REC)能力を活用し、言語記述による任意のターゲットの検出を行う。しかし,近年の研究では,対象画像にターゲットが存在しない場合に偽陽性の予測を行う傾向から,RECフレームワークの厳しい制限が強調されている。また、このボトルネックは、オープンセットセマンティックセグメンテーションの展望の中心であるが、予測誤差を研究することで、どの程度の改善が達成できるかは、いまだに不明である。この目的のために、異なるドメインで利用可能な6つのデータセットに関する実証的研究を行い、これらのエラーが常に予測可能なパターンに従っていることを明らかにする。具体的には、評価可能な信頼スコアを持つ偽陽性検出は、一般的に大きな画像領域を占有し、通常、相対的なサイズでフィルタリングできることを示す。さらに重要なことは、これらの観測がRECに基づく検出と自動セグメンテーションを改善するための将来の研究を刺激することを期待している。一方,各種専門分野の複数のデータセットを対象としたSAMの性能評価を行い,手動によるセグメンテーション性能とアノテーションの保存時間を大幅に改善したことを報告した。

関連論文リスト

Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation [1.124958340749622]
カウント,検出,セグメンテーションタスク間の相関を利用したマルチタスク学習フレームワークを提案する。ラベル拡張のためのクロスポジションカット・アンド・ペーストを開発し,エントロピーに基づく擬似ラベル選択を行う。提案手法は, UDA法を著しく上回り, 教師付き手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2024-03-31T12:22:23Z)
Learning from SAM: Harnessing a Foundation Model for Sim2Real Adaptation by Regularization [17.531847357428454]
ドメイン適応は特にロボティクスアプリケーションにおいて重要であり、ターゲットとなるドメイントレーニングデータは通常不足しており、アノテーションは入手するのにコストがかかる。本稿では、アノテートされたソースドメインデータが利用可能なシナリオに対して、自己教師付きドメイン適応手法を提案する。本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。
論文参考訳（メタデータ） (2023-09-27T10:37:36Z)
CLIP the Gap: A Single Domain Generalization Approach for Object Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文参考訳（メタデータ） (2023-01-13T12:01:18Z)
Learning Confident Classifiers in the Presence of Label Noise [5.829762367794509]
本稿では,ノイズ観測のための確率論的モデルを提案し,信頼性の高い分類とセグメンテーションモデルの構築を可能にする。実験により,本アルゴリズムは,検討された分類問題と分割問題に対して,最先端の解よりも優れていることが示された。
論文参考訳（メタデータ） (2023-01-02T04:27:25Z)
Domain Adaptive Segmentation of Electron Microscopy with Sparse Point Annotations [2.5137859989323537]
競争性能に優れたアノテーション効率のアプローチを開発する。弱教師付きドメイン適応(WDA)に極端にスパースで弱いアノテーションのタイプで焦点を当てる。 15%のポイントアノテーションしか持たないモデルでは、教師付きモデルと同等のパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-10-24T10:50:37Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。 3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文参考訳（メタデータ） (2021-08-03T17:09:56Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文参考訳（メタデータ） (2020-11-11T08:34:40Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。