論文の概要: Carton dataset synthesis based on foreground texture replacement
- arxiv url: http://arxiv.org/abs/2103.10738v2
- Date: Mon, 22 Mar 2021 08:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 12:40:24.294561
- Title: Carton dataset synthesis based on foreground texture replacement
- Title(参考訳): 前景テクスチャ置換に基づくカートンデータセット合成
- Authors: Lijun Gou, Shengkai Wu, Jinrong Yang, Hangcheng Yu, Linchen Xi,
Xiaoping Li, Chao Deng
- Abstract要約: 本稿では,ソースデータセットの前景テクスチャを,ターゲットデータセットの前景インスタンステクスチャに置き換える画像合成手法を提案する。
この方法は、ターゲットデータセットを大幅に強化し、モデルの性能を向上させることができる。
実験では、新しい画像合成法により、少なくともRetinaNetで4.3%sim6.5%、高速R-CNNで3.4%sim6.8%のAPが大幅に向上する。
- 参考スコア(独自算出の注目度): 4.603376680116295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One major impediment in rapidly deploying object detection models for
industrial applications is the lack of large annotated datasets. Currently, in
the e-commerce logistics industry, there is a Sacked Carton Dataset(SCD) that
contains carton images from three scenarios such as comprehensive
pharmaceutical logistics company(CPLC), e-commerce logistics company(ECLC),
fruit market(FM). However, due to domain shift, the model trained with carton
datasets from one of the three scenarios in SCD has poor generalization ability
when applied to the rest scenarios. To solve this problem, a novel image
synthesis method is proposed to replace the foreground texture of the source
datasets with the foreground instance texture of the target datasets. This
method can greatly augment the target datasets and improve the model's
performance. We firstly propose a surfaces segmentation algorithm to identify
the different surfaces of the carton instance. Secondly, a contour
reconstruction algorithm is proposed to solve the problem of occlusion,
truncation, and incomplete contour of carton instances. Finally, we use the
Gaussian fusion algorithm to fuse the background from the source datasets with
the foreground from the target datasets. In the experiments, our novel image
synthesis method can largely boost AP by at least $4.3\%\sim6.5\%$ on RetinaNet
and $3.4\%\sim6.8\%$ on Faster R-CNN for the target domain. And on the source
domain, the performance AP can be improved by $1.7\%\sim2\%$ on RetinaNet and
$0.9\%\sim1.5\%$ on Faster R-CNN. Code is available
\href{https://github.com/hustgetlijun/RCAN}{here}.
- Abstract(参考訳): 産業アプリケーションのためのオブジェクト検出モデルを迅速にデプロイする際の大きな障害のひとつは、大きな注釈付きデータセットがないことである。
現在、電子商取引業界には、包括的医薬品物流会社(CPLC)、eコマース物流会社(ECLC)、果物市場(FM)といった3つのシナリオからカルトン画像を含むSacked Carton Dataset(SCD)が存在する。
しかし、ドメインシフトのため、SCDの3つのシナリオのうちの1つからカートンデータセットでトレーニングされたモデルは、残りのシナリオに適用した場合の一般化能力に乏しい。
この問題を解決するために, ソースデータセットの前景テクスチャを対象データセットの前景インスタンステクスチャに置き換える, 新たな画像合成法を提案する。
この方法はターゲットデータセットを大幅に拡張し、モデルの性能を向上させる。
まず,カートンインスタンスの異なる曲面を識別するサーフェスセグメンテーションアルゴリズムを提案する。
次に, カートンインスタンスの閉塞, 脱落, 不完全輪郭の問題を解決するために, 輪郭再構成アルゴリズムを提案する。
最後に、gaussian fusionアルゴリズムを使用して、ソースデータセットから背景を、ターゲットデータセットから前景と融合する。
実験では、新しい画像合成法により、少なくとも4.3\%\sim6.5\%がRetinaNetで、3.4\%\sim6.8\%がターゲットドメインで高速なR-CNNでAPを大きく向上させることができる。
ソースドメインでは、RetinaNetで1.7\%\sim2\%、高速R-CNNで0.9\%\sim1.5\%でパフォーマンスAPを改善することができる。
コードは href{https://github.com/hustgetlijun/RCAN}{here} で入手できる。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Adapting to Unseen Vendor Domains for MRI Lesion Segmentation [0.08156494881838945]
本稿では,ソースデータセットからターゲットデータセットへのMR画像の拡張を目的とした教師なし画像翻訳モデルについて検討する。
画像間の変換、スキャナーベンダー間の変換、ラベルから画像への変換からなるデータセット間の拡張の3つの構成について検討する。
その結果、ラベルから画像構成までの合成データに基づいて訓練されたセグメンテーションモデルが、ターゲットデータセット上で直接訓練されたセグメンテーションモデルに最も近い性能を示した。
論文 参考訳(メタデータ) (2021-08-14T01:09:43Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。