論文の概要: Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics
- arxiv url: http://arxiv.org/abs/2210.09814v1
- Date: Tue, 18 Oct 2022 12:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:06:30.224796
- Title: Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics
- Title(参考訳): スクレイプ、カット、ペースト、学習: パーセルロジスティックスに適用した自動データセット生成
- Authors: Alexander Naumann and Felix Hertlein and Benchun Zhou and Laura D\"orr
and Kai Furmans
- Abstract要約: 4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
- 参考スコア(独自算出の注目度): 58.720142291102135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art approaches in computer vision heavily rely on sufficiently
large training datasets. For real-world applications, obtaining such a dataset
is usually a tedious task. In this paper, we present a fully automated pipeline
to generate a synthetic dataset for instance segmentation in four steps. In
contrast to existing work, our pipeline covers every step from data acquisition
to the final dataset. We first scrape images for the objects of interest from
popular image search engines and since we rely only on text-based queries the
resulting data comprises a wide variety of images. Hence, image selection is
necessary as a second step. This approach of image scraping and selection
relaxes the need for a real-world domain-specific dataset that must be either
publicly available or created for this purpose. We employ an object-agnostic
background removal model and compare three different methods for image
selection: Object-agnostic pre-processing, manual image selection and CNN-based
image selection. In the third step, we generate random arrangements of the
object of interest and distractors on arbitrary backgrounds. Finally, the
composition of the images is done by pasting the objects using four different
blending methods. We present a case study for our dataset generation approach
by considering parcel segmentation. For the evaluation we created a dataset of
parcel photos that were annotated automatically. We find that (1) our dataset
generation pipeline allows a successful transfer to real test images (Mask AP
86.2), (2) a very accurate image selection process - in contrast to human
intuition - is not crucial and a broader category definition can help to bridge
the domain gap, (3) the usage of blending methods is beneficial compared to
simple copy-and-paste. We made our full code for scraping, image composition
and training publicly available at https://a-nau.github.io/parcel2d.
- Abstract(参考訳): コンピュータビジョンにおける最先端のアプローチは、十分に大きなトレーニングデータセットに大きく依存している。
現実世界のアプリケーションの場合、そのようなデータセットを取得するのは面倒な作業である。
本稿では,全自動パイプラインを用いて,サンプル分割のための合成データセットを4ステップで生成する。
既存の作業とは対照的に、パイプラインはデータ取得から最終データセットまでのすべてのステップをカバーしています。
まず、人気のある画像検索エンジンから興味のあるオブジェクトの画像をスクレイピングし、テキストベースのクエリのみに依存するため、結果データにはさまざまな画像が含まれる。
したがって、第2ステップとして画像選択が必要である。
イメージスクレイピングとセレクションのこのアプローチは、この目的のために公開または作成されなければならない現実世界のドメイン固有データセットの必要性を緩和する。
我々は、オブジェクトに依存しない背景除去モデルを用いて、画像選択のための3つの異なる方法を比較する。
第3のステップでは、任意の背景上の興味対象と気晴らし対象のランダムな配置を生成する。
最後に、画像の合成は、4つの異なるブレンディング方法を用いてオブジェクトをペーストすることで行われる。
本稿では,パセルセグメンテーションを考慮したデータセット生成手法のケーススタディを提案する。
評価のために、自動的に注釈付けされたパーセル写真のデータセットを作成しました。
1) 実際のテスト画像(mask ap 86.2) への転送を成功させるデータセット生成パイプライン, (2) 人間の直感とは対照的に,非常に正確な画像選択プロセスは重要ではなく,より広いカテゴリ定義がドメインギャップの橋渡しに役立ち,(3) ブレンディングメソッドの使用は単純なコピー&ペーストに比べて有益である。
スクレーピング、画像合成、トレーニングのための完全なコードをhttps://a-nau.github.io/parcel2dで公開しました。
関連論文リスト
- Adapt Anything: Tailor Any Image Classifiers across Domains And
Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。
対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文 参考訳(メタデータ) (2023-10-25T11:58:14Z) - Beyond Generation: Harnessing Text to Image Models for Object Detection
and Segmentation [29.274362919954218]
精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
提案手法は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的に一貫性のある背景生成に分離する。
5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-09-12T04:41:45Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - COTR: Correspondence Transformer for Matching Across Images [31.995943755283786]
本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
論文 参考訳(メタデータ) (2021-03-25T22:47:02Z) - Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文 参考訳(メタデータ) (2021-01-03T04:50:03Z) - OneGAN: Simultaneous Unsupervised Learning of Conditional Image
Generation, Foreground Segmentation, and Fine-Grained Clustering [100.32273175423146]
本研究では、教師なしの方法で、条件付き画像生成装置、前景抽出とセグメンテーション、オブジェクトの削除と背景補完を同時に学習する方法を提案する。
Geneversarative Adrial Network と Variational Auto-Encoder を組み合わせることで、複数のエンコーダ、ジェネレータ、ディスクリミネータを組み合わせ、全てのタスクを一度に解くことができる。
論文 参考訳(メタデータ) (2019-12-31T18:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。