論文の概要: Human-in-the-Loop Segmentation of Multi-species Coral Imagery
- arxiv url: http://arxiv.org/abs/2404.09406v3
- Date: Tue, 12 Nov 2024 04:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:48.478411
- Title: Human-in-the-Loop Segmentation of Multi-species Coral Imagery
- Title(参考訳): 多種サンゴのヒト・イン・ザ・ループセグメンテーション
- Authors: Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire, Niko Suenderhauf, Tobias Fischer,
- Abstract要約: ポイントラベルの伝搬は、スパースポイントでラベル付けされた既存の画像を使用して、強化された地上真実データを生成する技術である。
大規模基盤モデルの最近の進歩により, 強化された地中真実マスクの作成が促進されていることを示す。
本稿では,アノテーションの効率を大幅に向上させる,Human-in-the-loop原則に基づくラベリング手法を提案する。
- 参考スコア(独自算出の注目度): 3.3564744382205127
- License:
- Abstract: Marine surveys by robotic underwater and surface vehicles result in substantial quantities of coral reef imagery, however labeling these images is expensive and time-consuming for domain experts. Point label propagation is a technique that uses existing images labeled with sparse points to create augmented ground truth data, which can be used to train a semantic segmentation model. In this work, we show that recent advances in large foundation models facilitate the creation of augmented ground truth masks using only features extracted by the denoised version of the DINOv2 foundation model and K-Nearest Neighbors (KNN), without any pre-training. For images with extremely sparse labels, we present a labeling method based on human-in-the-loop principles, which greatly enhances annotation efficiency: in the case that there are 5 point labels per image, our human-in-the-loop method outperforms the prior state-of-the-art by 14.2% for pixel accuracy and 19.7% for mIoU; and by 8.9% and 18.3% if there are 10 point labels. When human-in-the-loop labeling is not available, using the denoised DINOv2 features with a KNN still improves on the prior state-of-the-art by 2.7% for pixel accuracy and 5.8% for mIoU (5 grid points). On the semantic segmentation task, we outperform the prior state-of-the-art by 8.8% for pixel accuracy and by 13.5% for mIoU when only 5 point labels are used for point label propagation. Additionally, we perform a comprehensive study into the impacts of the point label placement style and the number of points on the point label propagation quality, and make several recommendations for improving the efficiency of labeling images with points.
- Abstract(参考訳): 水中と表面の車両による海洋調査は、大量のサンゴ礁の画像をもたらすが、これらの画像にラベルをつけるのは、ドメインの専門家にとって高価で時間を要する。
ポイントラベルの伝搬は、スパースポイントでラベル付けされた既存のイメージを使用して、セマンティックセグメンテーションモデルのトレーニングに使用できる強化された地上真実データを生成する技術である。
本研究では,DINOv2ファンデーションモデルとK-Nearest Neighbors(KNN)の識別版から抽出した特徴のみを事前学習することなく,大規模ファンデーションモデルの最近の進歩により,拡張地真実マスクの作成が促進されていることを示す。
極端にスパースなラベルを持つ画像に対しては,アノテーションの効率を大幅に向上させるHuman-in-the-loopの原則に基づくラベル付け手法を提案する。画像あたりに5点ラベルが存在する場合,我々のHuman-in-loop法は,14.2%の画素精度,19.7%のmIoU,そして10点ラベルがあれば8.9%と18.3%の精度で先行技術を上回っている。
人間のループラベリングが利用できない場合、KNNでDINOv2のデノベート機能を使用すると、以前の最先端の2.7%のピクセル精度、5.8%のmIoU(5グリッドポイント)で改善される。
セグメンテーションタスクでは,5点ラベルのみを使用した場合,画素精度8.8%,mIoUが13.5%向上する。
さらに,点ラベル配置スタイルと点数の違いが点ラベル伝搬品質に与える影響を総合的に検討し,点ラベルによる画像の効率向上を推奨する。
関連論文リスト
- Label Filling via Mixed Supervision for Medical Image Segmentation from Noisy Annotations [22.910649758574852]
本稿では,LF-Net と呼ばれるシンプルで効果的なラベルフィリングフレームワークを提案する。
トレーニング中にノイズの多いアノテーションのみを付与した、基礎的なセグメンテーションラベルを予測する。
5つのデータセットの結果から、LF-Netは最先端の手法と比較して、すべてのデータセットのセグメンテーション精度を向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T14:36:36Z) - Adaptive Anchor Label Propagation for Transductive Few-Shot Learning [18.29463308334406]
ラベル付きデータによる画像の分類の問題に対処する例は少ない。
識別可能な損失関数を最小化することによりラベル付きデータの特徴埋め込みを適応する新しいアルゴリズムを提案する。
提案アルゴリズムは,1ショット設定と5ショット設定において,標準ラベル伝搬アルゴリズムを最大7%,2%向上させる。
論文 参考訳(メタデータ) (2023-10-30T20:29:31Z) - Semantic Embedded Deep Neural Network: A Generic Approach to Boost
Multi-Label Image Classification Performance [10.257208600853199]
本稿では,空間認識のセマンティックな特徴を応用するために,汎用的なセマンティック埋め込み型ディープニューラルネットワークを提案する。
Avg.relative Improvement of 15.27% in terms of AUC score across all labels than the baseline approach。
論文 参考訳(メタデータ) (2023-05-09T07:44:52Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features [56.89813105411331]
我々は,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討した。
本稿では,標本が誤分類される可能性を確実に予測できる教師なしスコアである自己監督表現品質スコア(Qスコア)を提案する。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100で5.8%、ImageNet-1Kで3.7%向上する。
論文 参考訳(メタデータ) (2022-03-03T17:48:23Z) - Point Label Aware Superpixels for Multi-species Segmentation of
Underwater Imagery [4.195806160139487]
水中車両を用いたサンゴ礁のモニタリングは、海洋調査の範囲を増やし、歴史的生態データの入手を可能にしている。
セマンティックセグメンテーションモデルを訓練するために,スーパーピクセル領域内のラベルを伝播する点ラベル認識手法を提案する。
本手法は,UCSDモザイクデータセットにおいて,画素精度が3.62%,ラベル伝搬タスクが平均IoUが8.35%向上した。
論文 参考訳(メタデータ) (2022-02-27T23:46:43Z) - Pseudo Pixel-level Labeling for Images with Evolving Content [5.573543601558405]
画像の手動アノテーションの労力を削減するために,擬似ピクセルレベルのラベル生成手法を提案する。
VGGとResNetのバックボーンを用いた2つのセマンティックセグメンテーションモデルを、擬似ラベリング法と最先端手法を用いてラベル付けした画像上で学習する。
以上の結果から, トレーニングプロセスにおいて, 最先端手法を用いて生成したデータの代わりに擬似ラベルを用いることで, VGGおよびResNetに基づくセマンティックセマンティックセグメンテーションモデルの平均IoUと周波数重み付きIoUを3.36%, 2.58%, 10倍改善することがわかった。
論文 参考訳(メタデータ) (2021-05-20T18:14:19Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Attention-Driven Dynamic Graph Convolutional Network for Multi-Label
Image Recognition [53.17837649440601]
本稿では,各画像の特定のグラフを動的に生成するアテンション駆動型動的グラフ畳み込みネットワーク(ADD-GCN)を提案する。
パブリックなマルチラベルベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-05T10:10:12Z) - Adversarial Learning for Personalized Tag Recommendation [61.76193196463919]
大規模データセットでトレーニング可能なエンドツーエンドのディープネットワークを提案する。
ユーザの嗜好と視覚的エンコーディングの合同トレーニングにより、ネットワークは視覚的嗜好をタグ付け行動と効率的に統合することができる。
本稿では,提案モデルの有効性を2つの大規模および公開データセットで示す。
論文 参考訳(メタデータ) (2020-04-01T20:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。