論文の概要: Human-in-the-Loop Segmentation of Multi-species Coral Imagery
- arxiv url: http://arxiv.org/abs/2404.09406v1
- Date: Mon, 15 Apr 2024 01:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:58:36.058354
- Title: Human-in-the-Loop Segmentation of Multi-species Coral Imagery
- Title(参考訳): 多種サンゴのヒト・イン・ザ・ループセグメンテーション
- Authors: Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire, Niko Suenderhauf, Tobias Fischer,
- Abstract要約: 海中車両による広範囲の海洋調査はサンゴ礁の画像の入手率を著しく向上させた。
点ラベル伝搬は、スパース点ラベルでラベル付けされた既存の画像データを活用するために用いられるアプローチである。
結果として生成された強化された基底真理は、セマンティックセグメンテーションモデルをトレーニングするために使用される。
- 参考スコア(独自算出の注目度): 3.3564744382205127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Broad-scale marine surveys performed by underwater vehicles significantly increase the availability of coral reef imagery, however it is costly and time-consuming for domain experts to label images. Point label propagation is an approach used to leverage existing image data labeled with sparse point labels. The resulting augmented ground truth generated is then used to train a semantic segmentation model. Here, we first demonstrate that recent advances in foundation models enable generation of multi-species coral augmented ground truth masks using denoised DINOv2 features and K-Nearest Neighbors (KNN), without the need for any pre-training or custom-designed algorithms. For extremely sparsely labeled images, we propose a labeling regime based on human-in-the-loop principles, resulting in significant improvement in annotation efficiency: If only 5 point labels per image are available, our proposed human-in-the-loop approach improves on the state-of-the-art by 17.3% for pixel accuracy and 22.6% for mIoU; and by 10.6% and 19.1% when 10 point labels per image are available. Even if the human-in-the-loop labeling regime is not used, the denoised DINOv2 features with a KNN outperforms the prior state-of-the-art by 3.5% for pixel accuracy and 5.7% for mIoU (5 grid points). We also provide a detailed analysis of how point labeling style and the quantity of points per image affects the point label propagation quality and provide general recommendations on maximizing point label efficiency.
- Abstract(参考訳): 海中車両による広範囲の海洋調査はサンゴ礁の画像の入手可能性を大幅に向上させるが、ドメインの専門家が画像にラベルをつけるのに費用と時間を要する。
点ラベル伝搬は、スパース点ラベルでラベル付けされた既存の画像データを活用するために用いられるアプローチである。
結果として生成された強化された基底真理は、セマンティックセグメンテーションモデルをトレーニングするために使用される。
ここでは,近年の基盤モデルの進歩により,事前学習やカスタム設計のアルゴリズムを必要とせず,DINOv2特徴とK-Nearest Neighbors (KNN)を用いてサンゴサンゴサンゴサンゴマスクを生成できることを実証する。
画像毎の5点ラベルしか利用できない場合,提案手法は画素精度17.3%,mIoU22.6%,画像毎の10点ラベルが利用可能であれば10.6%,19.1%向上する。
ループ内ラベリング方式が使われなくても、KNNによるDINOv2のノイズ化機能は、画素精度が3.5%、mIoU(5グリッド点)が5.7%向上する。
また,画像毎の点標定スタイルが点標定の伝播品質に与える影響を詳細に分析し,点標定効率の最大化に関する一般的な勧告を提供する。
関連論文リスト
- Adaptive Anchor Label Propagation for Transductive Few-Shot Learning [18.29463308334406]
ラベル付きデータによる画像の分類の問題に対処する例は少ない。
識別可能な損失関数を最小化することによりラベル付きデータの特徴埋め込みを適応する新しいアルゴリズムを提案する。
提案アルゴリズムは,1ショット設定と5ショット設定において,標準ラベル伝搬アルゴリズムを最大7%,2%向上させる。
論文 参考訳(メタデータ) (2023-10-30T20:29:31Z) - Semantic Embedded Deep Neural Network: A Generic Approach to Boost
Multi-Label Image Classification Performance [10.257208600853199]
本稿では,空間認識のセマンティックな特徴を応用するために,汎用的なセマンティック埋め込み型ディープニューラルネットワークを提案する。
Avg.relative Improvement of 15.27% in terms of AUC score across all labels than the baseline approach。
論文 参考訳(メタデータ) (2023-05-09T07:44:52Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features [56.89813105411331]
我々は,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討した。
本稿では,標本が誤分類される可能性を確実に予測できる教師なしスコアである自己監督表現品質スコア(Qスコア)を提案する。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100で5.8%、ImageNet-1Kで3.7%向上する。
論文 参考訳(メタデータ) (2022-03-03T17:48:23Z) - Point Label Aware Superpixels for Multi-species Segmentation of
Underwater Imagery [4.195806160139487]
水中車両を用いたサンゴ礁のモニタリングは、海洋調査の範囲を増やし、歴史的生態データの入手を可能にしている。
セマンティックセグメンテーションモデルを訓練するために,スーパーピクセル領域内のラベルを伝播する点ラベル認識手法を提案する。
本手法は,UCSDモザイクデータセットにおいて,画素精度が3.62%,ラベル伝搬タスクが平均IoUが8.35%向上した。
論文 参考訳(メタデータ) (2022-02-27T23:46:43Z) - Pseudo Pixel-level Labeling for Images with Evolving Content [5.573543601558405]
画像の手動アノテーションの労力を削減するために,擬似ピクセルレベルのラベル生成手法を提案する。
VGGとResNetのバックボーンを用いた2つのセマンティックセグメンテーションモデルを、擬似ラベリング法と最先端手法を用いてラベル付けした画像上で学習する。
以上の結果から, トレーニングプロセスにおいて, 最先端手法を用いて生成したデータの代わりに擬似ラベルを用いることで, VGGおよびResNetに基づくセマンティックセマンティックセグメンテーションモデルの平均IoUと周波数重み付きIoUを3.36%, 2.58%, 10倍改善することがわかった。
論文 参考訳(メタデータ) (2021-05-20T18:14:19Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Attention-Driven Dynamic Graph Convolutional Network for Multi-Label
Image Recognition [53.17837649440601]
本稿では,各画像の特定のグラフを動的に生成するアテンション駆動型動的グラフ畳み込みネットワーク(ADD-GCN)を提案する。
パブリックなマルチラベルベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-05T10:10:12Z) - Adversarial Learning for Personalized Tag Recommendation [61.76193196463919]
大規模データセットでトレーニング可能なエンドツーエンドのディープネットワークを提案する。
ユーザの嗜好と視覚的エンコーディングの合同トレーニングにより、ネットワークは視覚的嗜好をタグ付け行動と効率的に統合することができる。
本稿では,提案モデルの有効性を2つの大規模および公開データセットで示す。
論文 参考訳(メタデータ) (2020-04-01T20:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。