論文の概要: Hierarchical Conditional Semi-Paired Image-to-Image Translation For
Multi-Task Image Defect Correction On Shopping Websites
- arxiv url: http://arxiv.org/abs/2309.05883v1
- Date: Tue, 12 Sep 2023 00:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:51:50.193765
- Title: Hierarchical Conditional Semi-Paired Image-to-Image Translation For
Multi-Task Image Defect Correction On Shopping Websites
- Title(参考訳): ショッピングサイトにおけるマルチタスク画像誤り訂正のための階層的条件付き半ペア画像変換
- Authors: Moyan Li, Jinmiao Fu, Shaoyuan Xu, Huidong Liu, Jia Liu, Bryan Wang
- Abstract要約: ショッピングサイト上では、品質の低い画像が顧客の体験に悪影響を及ぼす。
我々は,異なる製品タイプにまたがる複数の欠陥を補正する統合イメージ・ツー・イメージ(I2I)翻訳モデルを提案する。
- 参考スコア(独自算出の注目度): 14.02795096334033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On shopping websites, product images of low quality negatively affect
customer experience. Although there are plenty of work in detecting images with
different defects, few efforts have been dedicated to correct those defects at
scale. A major challenge is that there are thousands of product types and each
has specific defects, therefore building defect specific models is unscalable.
In this paper, we propose a unified Image-to-Image (I2I) translation model to
correct multiple defects across different product types. Our model leverages an
attention mechanism to hierarchically incorporate high-level defect groups and
specific defect types to guide the network to focus on defect-related image
regions. Evaluated on eight public datasets, our model reduces the Frechet
Inception Distance (FID) by 24.6% in average compared with MoNCE, the
state-of-the-art I2I method. Unlike public data, another practical challenge on
shopping websites is that some paired images are of low quality. Therefore we
design our model to be semi-paired by combining the L1 loss of paired data with
the cycle loss of unpaired data. Tested on a shopping website dataset to
correct three image defects, our model reduces (FID) by 63.2% in average
compared with WS-I2I, the state-of-the art semi-paired I2I method.
- Abstract(参考訳): ショッピングウェブサイトでは、品質の低い製品イメージは顧客エクスペリエンスに悪影響を及ぼす。
異なる欠陥のある画像を検出する作業はたくさんありますが、大規模な欠陥を修正するための努力はほとんどありません。
大きな課題は、何千もの製品タイプがあり、それぞれに特定の欠陥があることです。
本稿では,異なる製品タイプにまたがる複数の欠陥を補正する統合イメージ・ツー・イメージ(I2I)翻訳モデルを提案する。
本モデルでは,高レベル欠陥群と特定の欠陥タイプを階層的に組み込んだ注意機構を用いて,欠陥関連画像領域をネットワークに誘導する。
8つの公開データセットで評価し,frechetインセプション距離(fid)を平均24.6%削減した。
パブリックデータとは異なり、ショッピングサイトにおけるもうひとつの現実的な課題は、ペア画像が低品質であることである。
そこで本研究では,ペアデータのL1損失とペアデータのサイクル損失を組み合わせた半ペア化設計を行う。
3つの画像欠陥を修正するために、ショッピングウェブサイトのデータセットでテストした結果、ws-i2iと比較して平均で(fid)を63.2%削減した。
関連論文リスト
- Change-Aware Siamese Network for Surface Defects Segmentation under Complex Background [0.6407952035735353]
変更検出フレームワークにおける欠陥セグメント化を解消する変更対応のSiameseネットワークを提案する。
トランスフォーマーベースのエンコーダを導くために,新しいマルチクラスのコントラスト損失を導入した。
距離マップで示される差分は、変更対応デコーダにスキップ接続され、クラス間およびクラス外の両方の欠陥の位置をアシストする。
論文 参考訳(メタデータ) (2024-09-01T02:48:11Z) - Few-shot Defect Image Generation based on Consistency Modeling [1.8029094254659288]
DefectDiffuは、複数の製品にまたがる欠陥の一貫性をモデル化する、新しいテキスト誘導拡散法である。
DefectDiffuは、世代品質と多様性の点で最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-08-01T08:29:42Z) - Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset [7.1083241462091165]
従来の欠陥分類アプローチは2つの障壁に直面している。
不十分なトレーニングデータと不安定なデータ品質。
画像上に記録されたリッチなデータ記述を含む,欠陥分類のための特別なデータセットを提案するが,欠陥特徴を直接学習するのは困難である。
論文 参考訳(メタデータ) (2024-04-08T04:17:27Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Few-Shot Defect Image Generation via Defect-Aware Feature Manipulation [19.018561017953957]
そこで本研究では, 難易度の高いいくつかの症例において, 第一の欠陥画像生成法を提案する。
まず、欠陥のない画像をバックボーンとしてデータ効率の良いStyleGAN2をトレーニングする。
第二に、欠陥を意識した残留ブロックを背骨に取り付け、適切な欠陥マスクを生成することを学習する。
論文 参考訳(メタデータ) (2023-03-04T11:43:08Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z) - Surveillance Face Anti-spoofing [81.50018853811895]
Face Anti-Spoofing (FAS) は、様々な物理的攻撃から顔認識システムを保護するために不可欠である。
本稿では,画像品質による性能劣化を軽減するために,コントラスト品質不変学習(CQIL)ネットワークを提案する。
多くの実験がSuHiFiMaskデータセットの品質と提案したCQILの優位性を検証する。
論文 参考訳(メタデータ) (2023-01-03T07:09:57Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Few-Shot Defect Segmentation Leveraging Abundant Normal Training Samples
Through Normal Background Regularization and Crop-and-Paste Operation [4.626338154327536]
産業検査作業では, 欠陥のない画像サンプルが豊富だが, 異常な画像が極めて少ないことが一般的である。
本論文は,正常な(欠陥のない)トレーニングイメージを十分に用いながら,異常な部分しか持たない,難解な少数ショット欠陥分割課題に対処する。
UNetライクなエンコーダ-デコーダ欠陥分割ネットワークのトレーニングに、豊富な欠陥のないイメージを組み込むことにより、2つの効果的な正則化手法を提案する。
論文 参考訳(メタデータ) (2020-07-18T14:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。