論文の概要: MorphoCluster: Efficient Annotation of Plankton images by Clustering
- arxiv url: http://arxiv.org/abs/2005.01595v1
- Date: Mon, 4 May 2020 16:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:15:17.862796
- Title: MorphoCluster: Efficient Annotation of Plankton images by Clustering
- Title(参考訳): MorphoCluster: クラスタリングによるプランクトン画像の効率的なアノテーション
- Authors: Simon-Martin Schr\"oder, Rainer Kiko and Reinhard Koch
- Abstract要約: 我々はMorphoClusterについて紹介する。MorphoClusterは、大規模な画像データセットの、データ駆動、高速、高精度なアノテーションのためのソフトウェアツールである。
MorphoClusterは、教師なしクラスタリングを埋め込むことで、パターンを発見し、大量のデータでオブジェクト分類を実行する能力を強化する。
MorphoClusterは高速で正確で一貫性があり、きめ細かなデータ駆動型分類を提供し、新規性検出を可能にする。
- 参考スコア(独自算出の注目度): 0.9668407688201357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present MorphoCluster, a software tool for data-driven, fast
and accurate annotation of large image data sets. While already having
surpassed the annotation rate of human experts, volume and complexity of marine
data will continue to increase in the coming years. Still, this data requires
interpretation. MorphoCluster augments the human ability to discover patterns
and perform object classification in large amounts of data by embedding
unsupervised clustering in an interactive process. By aggregating similar
images into clusters, our novel approach to image annotation increases
consistency, multiplies the throughput of an annotator and allows experts to
adapt the granularity of their sorting scheme to the structure in the data. By
sorting a set of 1.2M objects into 280 data-driven classes in 71 hours (16k
objects per hour), with 90% of these classes having a precision of 0.889 or
higher. This shows that MorphoCluster is at the same time fast, accurate and
consistent, provides a fine-grained and data-driven classification and enables
novelty detection. MorphoCluster is available as open-source software at
https://github.com/morphocluster.
- Abstract(参考訳): 本稿では,大規模画像データセットに対するデータ駆動,高速,正確なアノテーションのためのソフトウェアツールであるmorphoclusterを提案する。
人類の専門家の注釈率をすでに上回っているが、海洋データの量と複雑さは今後数年で増加し続けるだろう。
しかし、このデータは解釈を必要とする。
MorphoClusterは、対話的なプロセスに教師なしクラスタリングを埋め込むことで、パターンを発見し、大量のデータでオブジェクト分類を実行する能力を高める。
類似した画像をクラスタに集約することで、画像アノテーションに対する我々の新しいアプローチは一貫性を高め、アノテータのスループットを乗じ、専門家がそのソート方式の粒度をデータの構造に適応させることができる。
1.2Mオブジェクトのセットを71時間(16kオブジェクト毎時)で280のデータ駆動クラスに分類することで、その90%が0.889以上の精度を持つ。
これは、MorphoClusterが高速で正確で一貫性があり、きめ細かいデータ駆動型分類を提供し、新規性検出を可能にすることを示している。
morphoclusterはオープンソースソフトウェアとしてhttps://github.com/morphoclusterで利用可能である。
関連論文リスト
- MoDE: CLIP Data Experts via Clustering [119.88225963429569]
データエキスパートの混合(Mixture of Data Experts, MODE)を提示し,クラスタリングによるCLIPデータエキスパートのシステム学習を行う。
各データエキスパートは、あるデータクラスタでトレーニングされ、他のクラスタの偽陰性ノイズに対する感度が低い。
実験によると、ViT-B/16の4人のCLIPデータ専門家が、OpenAI CLIPとOpenCLIPによるViT-L/14のゼロショット画像分類よりも優れていた。
論文 参考訳(メタデータ) (2024-04-24T17:59:24Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - RADiff: Controllable Diffusion Models for Radio Astronomical Maps
Generation [6.128112213696457]
RADiffは、注釈付き無線データセット上でトレーニングされた条件拡散モデルに基づく生成的アプローチである。
完全合成画像アノテーションペアを生成して,任意のアノテートデータセットを自動的に拡張できることを示す。
論文 参考訳(メタデータ) (2023-07-05T16:04:44Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z) - Identifying meaningful clusters in malware data [8.680676599607125]
マルウェアデータは、幅広い濃度の異なる重なり合うクラスタを含む傾向にある。
正規化は、クラスタリングに類似したコントリビューションを持つために、異なる範囲の値で機能を設定することを目的としている。
本稿では,上記の問題に正確に対処する手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T12:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。