論文の概要: AnomalyPainter: Vision-Language-Diffusion Synergy for Zero-Shot Realistic and Diverse Industrial Anomaly Synthesis
- arxiv url: http://arxiv.org/abs/2503.07253v1
- Date: Mon, 10 Mar 2025 12:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:48.597145
- Title: AnomalyPainter: Vision-Language-Diffusion Synergy for Zero-Shot Realistic and Diverse Industrial Anomaly Synthesis
- Title(参考訳): AnomalyPainter:Zero-Shot Realistic and Diverse Industrial Anomaly Synergy
- Authors: Zhangyu Lai, Yilin Lu, Xinyang Li, Jianghang Lin, Yansong Qu, Liujuan Cao, Ming Li, Rongrong Ji,
- Abstract要約: AnomalyPainterはVision Language Large Model、Latent Diffusion Model、テクスチャライブラリTex-9Kを相乗化するフレームワークである。
Tex-9Kは75のカテゴリと8,792のテクスチャを含むプロ向けテクスチャライブラリである。
大規模な実験により、AnomalyPainterは現実主義、多様性、一般化において既存の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 52.081638586098
- License:
- Abstract: While existing anomaly synthesis methods have made remarkable progress, achieving both realism and diversity in synthesis remains a major obstacle. To address this, we propose AnomalyPainter, a zero-shot framework that breaks the diversity-realism trade-off dilemma through synergizing Vision Language Large Model (VLLM), Latent Diffusion Model (LDM), and our newly introduced texture library Tex-9K. Tex-9K is a professional texture library containing 75 categories and 8,792 texture assets crafted for diverse anomaly synthesis. Leveraging VLLM's general knowledge, reasonable anomaly text descriptions are generated for each industrial object and matched with relevant diverse textures from Tex-9K. These textures then guide the LDM via ControlNet to paint on normal images. Furthermore, we introduce Texture-Aware Latent Init to stabilize the natural-image-trained ControlNet for industrial images. Extensive experiments show that AnomalyPainter outperforms existing methods in realism, diversity, and generalization, achieving superior downstream performance.
- Abstract(参考訳): 既存の異常合成法は顕著な進歩を遂げているが、合成における現実主義と多様性の両方を達成することは大きな障害である。
そこで本稿では,視覚言語大モデル (VLLM) と潜在拡散モデル (LDM) と,新たに導入されたテクスチャライブラリ Tex-9K を相乗化することによって,多様性リアリズムのトレードオフジレンマを破るゼロショットフレームワークであるAnomalyPainterを提案する。
Tex-9Kは75のカテゴリと8,792のテクスチャを含むプロ向けテクスチャライブラリである。
VLLMの一般的な知識を活用することで、各産業オブジェクトに対して合理的な異常なテキスト記述が生成され、Tex-9Kの関連する多様なテクスチャにマッチする。
これらのテクスチャは、通常のイメージにペンキを塗るために、ControlNetを介してLCMをガイドする。
さらに,産業画像に対する自然画像学習制御ネットの安定化を図るために,テクスチュア・アウェア・ラテント・イニット(Texture-Aware Latent Init)を導入する。
大規模な実験により、AnomalyPainterは現実主義、多様性、一般化の既存の手法よりも優れ、下流のパフォーマンスが優れていることが示された。
関連論文リスト
- Texture Image Synthesis Using Spatial GAN Based on Vision Transformers [1.6482333106552793]
本研究では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
論文 参考訳(メタデータ) (2025-02-03T21:39:30Z) - FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文 参考訳(メタデータ) (2024-10-18T12:48:22Z) - SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model [15.616316848126642]
総合的なアーティファクト分類法を開発し、微調整視覚言語モデル(VLM)のためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
論文 参考訳(メタデータ) (2024-02-28T05:54:02Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - SeamlessGAN: Self-Supervised Synthesis of Tileable Texture Maps [3.504542161036043]
単一入力例からタイル状テクスチャマップを自動生成できるSeamlessGANを提案する。
合成問題にのみ焦点をあてた既存の方法とは対照的に,本研究は合成性とタイル性の両方に同時に取り組む。
論文 参考訳(メタデータ) (2022-01-13T18:24:26Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。