論文の概要: ImagiFilter: A resource to enable the semi-automatic mining of images at
scale
- arxiv url: http://arxiv.org/abs/2008.09152v1
- Date: Thu, 20 Aug 2020 18:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 02:58:19.581239
- Title: ImagiFilter: A resource to enable the semi-automatic mining of images at
scale
- Title(参考訳): ImagiFilter: 大規模な画像の半自動マイニングを可能にするリソース
- Authors: Houda Alberts and Iacer Calixto
- Abstract要約: 我々は、望ましくない画像を自動的にフィルタリングする(半)ように設計された事前訓練されたモデルとともに、画像データセットを記述し、公開する。
我々のデータセットは写真や自然画像に焦点をあてており、コンピュータビジョン研究において非常に一般的なユースケースである。
メモリフットプリントを削減したモデルアーキテクチャが粗い予測の精度を96%以上向上することを示す。
- 参考スコア(独自算出の注目度): 3.6550217261503675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets (semi-)automatically collected from the web can easily scale to
millions of entries, but a dataset's usefulness is directly related to how
clean and high-quality its examples are. In this paper, we describe and
publicly release an image dataset along with pretrained models designed to
(semi-)automatically filter out undesirable images from very large image
collections, possibly obtained from the web. Our dataset focusses on
photographic and/or natural images, a very common use-case in computer vision
research. We provide annotations for coarse prediction, i.e. photographic vs.
non-photographic, and smaller fine-grained prediction tasks where we further
break down the non-photographic class into five classes: maps, drawings,
graphs, icons, and sketches. Results on held out validation data show that a
model architecture with reduced memory footprint achieves over 96% accuracy on
coarse-prediction. Our best model achieves 88% accuracy on the hardest
fine-grained classification task available. Dataset and pretrained models are
available at: https://github.com/houda96/imagi-filter.
- Abstract(参考訳): webから自動的に収集されるデータセット(セミ)は、数百万のエントリに簡単にスケールできるが、データセットの有用性は、そのサンプルがクリーンで高品質であるかに直接関係している。
本稿では,Webから取得した膨大な画像コレクションから,望ましくない画像を半自動フィルタリングする事前学習されたモデルとともに,画像データセットを記述・公開する。
我々のデータセットは写真や自然画像に焦点をあてており、コンピュータビジョン研究において非常に一般的なユースケースである。
粗い予測、すなわち写真対非フォトグラフィック、より細かい予測タスクのためのアノテーションを提供し、非フォトグラフィッククラスをさらに5つのクラス(地図、図面、グラフ、アイコン、スケッチ)に分割する。
メモリフットプリントを削減したモデルアーキテクチャが粗い予測の精度を96%以上向上することを示す。
最良モデルでは,最もきめ細かな分類作業において88%の精度が得られる。
データセットと事前トレーニングされたモデルは、https://github.com/houda96/imagi-filter.orgで利用可能である。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of
Zoom and Spatial Biases in Image Classification [9.779748872936912]
入力画像の適切なフレーミングは、イメージネット画像の98.91%の正確な分類につながることを示す。
本稿では,モデルにズームイン操作を明示的に実行させることにより,分類精度を向上させるテスト時間拡張(TTA)手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T23:55:50Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Rethinking Natural Adversarial Examples for Classification Models [43.87819913022369]
ImageNet-Aは、自然対比例の有名なデータセットです。
オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。
実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。
論文 参考訳(メタデータ) (2021-02-23T14:46:48Z) - Application of Facial Recognition using Convolutional Neural Networks
for Entry Access Control [0.0]
本論文は,画像中の人物を入力として捉え,その人物を著者の1人か否かを分類する,教師付き分類問題の解決に焦点をあてる。
提案手法は,(1)WoodNetと呼ばれるニューラルネットワークをスクラッチから構築し,トレーニングすること,(2)ImageNetデータベース上に事前トレーニングされたネットワークを利用することで,転送学習を活用すること,の2つである。
結果は、データセット内の個人を高い精度で分類し、保持されたテストデータに対して99%以上の精度で達成する2つのモデルである。
論文 参考訳(メタデータ) (2020-11-23T07:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。