論文の概要: Photovoltaic Defect Image Generator with Boundary Alignment Smoothing Constraint for Domain Shift Mitigation
- arxiv url: http://arxiv.org/abs/2505.06117v1
- Date: Fri, 09 May 2025 15:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.312209
- Title: Photovoltaic Defect Image Generator with Boundary Alignment Smoothing Constraint for Domain Shift Mitigation
- Title(参考訳): 領域シフト緩和のための境界配向平滑化制約付き太陽光発電用欠陥画像生成装置
- Authors: Dongying Li, Binyi Su, Hua Zhang, Yong Li, Haiyong Chen,
- Abstract要約: 安定拡散(SD)に基づく太陽光発電用欠陥画像生成装置PDIGを提案する。
PDIGは、大規模データセットから学んだ強力な事前情報を活用して、限られたデータの下で生成品質を向上させる。
本手法はFrechet Inception Distance(FID)を第2のベスト法よりも19.16ポイント向上する。
- 参考スコア(独自算出の注目度): 7.166413857036151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate defect detection of photovoltaic (PV) cells is critical for ensuring quality and efficiency in intelligent PV manufacturing systems. However, the scarcity of rich defect data poses substantial challenges for effective model training. While existing methods have explored generative models to augment datasets, they often suffer from instability, limited diversity, and domain shifts. To address these issues, we propose PDIG, a Photovoltaic Defect Image Generator based on Stable Diffusion (SD). PDIG leverages the strong priors learned from large-scale datasets to enhance generation quality under limited data. Specifically, we introduce a Semantic Concept Embedding (SCE) module that incorporates text-conditioned priors to capture the relational concepts between defect types and their appearances. To further enrich the domain distribution, we design a Lightweight Industrial Style Adaptor (LISA), which injects industrial defect characteristics into the SD model through cross-disentangled attention. At inference, we propose a Text-Image Dual-Space Constraints (TIDSC) module, enforcing the quality of generated images via positional consistency and spatial smoothing alignment. Extensive experiments demonstrate that PDIG achieves superior realism and diversity compared to state-of-the-art methods. Specifically, our approach improves Frechet Inception Distance (FID) by 19.16 points over the second-best method and significantly enhances the performance of downstream defect detection tasks.
- Abstract(参考訳): 太陽光発電(PV)セルの正確な欠陥検出は、インテリジェントなPV製造システムの品質と効率の確保に不可欠である。
しかし、豊富な欠陥データの不足は、効果的なモデルトレーニングに重大な課題をもたらす。
既存の手法ではデータセットを拡大するための生成モデルを探索しているが、不安定性、多様性の制限、ドメインシフトに悩まされることが多い。
これらの問題に対処するために,安定拡散(SD)に基づく太陽光発電用欠陥画像生成装置PDIGを提案する。
PDIGは、大規模データセットから学んだ強力な事前情報を活用して、限られたデータの下で生成品質を向上させる。
具体的には、テキスト条件付き事前処理を組み込んだセマンティック概念埋め込み(SCE)モジュールを導入し、欠陥タイプとその外観間の関係概念をキャプチャする。
領域分布をさらに高めるために,産業用SDモデルに産業用欠陥特性を注入する軽量産業用スタイル適応器 (LISA) を設計する。
本稿では,テキスト画像二重空間制約 (TIDSC) モジュールを提案する。
大規模実験によりPDIGは最先端の手法に比べて優れたリアリズムと多様性を達成できることが示された。
具体的には,Frechet Inception Distance(FID)を第2のベスト法よりも19.16ポイント向上し,下流欠陥検出タスクの性能を大幅に向上させる。
関連論文リスト
- Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
論文 参考訳(メタデータ) (2025-03-06T09:09:18Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Bring the Power of Diffusion Model to Defect Detection [0.0]
拡散確率モデル(DDPM)は,特徴リポジトリとして構築する認知過程の特徴を抽出するために事前訓練される。
待ち行列特徴を再構成してフィルタして高次元DDPM特徴を得る。
実験結果から,本手法はいくつかの産業データセット上での競合的な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-08-25T14:28:49Z) - Looking for Tiny Defects via Forward-Backward Feature Transfer [12.442574943138794]
そこで本研究では,従来の高解像度画像と地中トラスマスクの手法を評価する新しいベンチマークを提案する。
私たちのベンチマークには、欠陥サイズに関する堅牢性をキャプチャするメトリクスが含まれています。
提案手法は,欠陥サイズに対する高いロバスト性,高速動作,最先端セグメンテーション性能を特徴とする。
論文 参考訳(メタデータ) (2024-07-04T17:59:26Z) - Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset [7.1083241462091165]
従来の欠陥分類アプローチは2つの障壁に直面している。
不十分なトレーニングデータと不安定なデータ品質。
画像上に記録されたリッチなデータ記述を含む,欠陥分類のための特別なデータセットを提案するが,欠陥特徴を直接学習するのは困難である。
論文 参考訳(メタデータ) (2024-04-08T04:17:27Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - CINFormer: Transformer network with multi-stage CNN feature injection
for surface defect segmentation [73.02218479926469]
表面欠陥分割のための多段CNN特徴注入を用いた変圧器ネットワークを提案する。
CINFormerは、入力画像のマルチレベルCNN機能をエンコーダ内のトランスフォーマーネットワークの異なるステージに注入する、シンプルだが効果的な機能統合機構を提供する。
さらに、CINFormerはTop-Kセルフアテンションモジュールを提供し、欠陥に関するより重要な情報を持つトークンにフォーカスする。
論文 参考訳(メタデータ) (2023-09-22T06:12:02Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。