論文の概要: AnomalyControl: Learning Cross-modal Semantic Features for Controllable Anomaly Synthesis
- arxiv url: http://arxiv.org/abs/2412.06510v1
- Date: Mon, 09 Dec 2024 14:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:29.266001
- Title: AnomalyControl: Learning Cross-modal Semantic Features for Controllable Anomaly Synthesis
- Title(参考訳): AnomalyControl:制御可能な異常合成のためのクロスモーダルなセマンティック特徴の学習
- Authors: Shidan He, Lei Liu, Shen Zhao,
- Abstract要約: そこで本研究では,AnomalyControl という,モーダルな意味的特徴をガイダンス信号として学習するための,新しいアノマリ合成フレームワークを提案する。
AnomalyControlは、既存の方法と比較して、異常合成の最先端の結果を得ることができる。
- 参考スコア(独自算出の注目度): 5.0910293095851875
- License:
- Abstract: Anomaly synthesis is a crucial approach to augment abnormal data for advancing anomaly inspection. Based on the knowledge from the large-scale pre-training, existing text-to-image anomaly synthesis methods predominantly focus on textual information or coarse-aligned visual features to guide the entire generation process. However, these methods often lack sufficient descriptors to capture the complicated characteristics of realistic anomalies (e.g., the fine-grained visual pattern of anomalies), limiting the realism and generalization of the generation process. To this end, we propose a novel anomaly synthesis framework called AnomalyControl to learn cross-modal semantic features as guidance signals, which could encode the generalized anomaly cues from text-image reference prompts and improve the realism of synthesized abnormal samples. Specifically, AnomalyControl adopts a flexible and non-matching prompt pair (i.e., a text-image reference prompt and a targeted text prompt), where a Cross-modal Semantic Modeling (CSM) module is designed to extract cross-modal semantic features from the textual and visual descriptors. Then, an Anomaly-Semantic Enhanced Attention (ASEA) mechanism is formulated to allow CSM to focus on the specific visual patterns of the anomaly, thus enhancing the realism and contextual relevance of the generated anomaly features. Treating cross-modal semantic features as the prior, a Semantic Guided Adapter (SGA) is designed to encode effective guidance signals for the adequate and controllable synthesis process. Extensive experiments indicate that AnomalyControl can achieve state-of-the-art results in anomaly synthesis compared with existing methods while exhibiting superior performance for downstream tasks.
- Abstract(参考訳): 異常合成は異常検査を進めるための異常データを増大させる重要なアプローチである。
大規模な事前学習の知識に基づいて、既存のテキスト・ツー・イメージの異常合成手法は、主に、生成プロセス全体を導くために、テキスト情報や粗いアラインな視覚的特徴にフォーカスする。
しかし、これらの手法は現実的な異常(例えば、微粒な視覚パターン)の複雑な特徴を捉えるのに十分な記述子を欠くことが多く、生成過程の現実性や一般化を制限している。
そこで本研究では,テキスト画像参照プロンプトから一般化された異常キューを符号化し,合成された異常サンプルのリアリズムを改善するための,AnomalyControlと呼ばれる新しい異常合成フレームワークを提案する。
具体的には、AnomalyControlはフレキシブルで非マッチングのプロンプトペア(つまりテキストイメージ参照プロンプトとターゲットテキストプロンプト)を採用しており、クロスモーダルセマンティックモデリング(CSM)モジュールはテキストおよび視覚ディスクリプタからクロスモーダルセマンティック特徴を抽出するように設計されている。
次に、CSMが異常の特定の視覚パターンに集中できるように、Anomaly-Semantic Enhanced Attention (ASEA) 機構を定式化することにより、生成された異常特徴の現実性と文脈的関連性を高める。
クロスモーダルなセマンティック・セマンティック・アダプタ(SGA)は、適切な制御可能な合成プロセスにおいて効果的な誘導信号を符号化するように設計されている。
大規模な実験により、AnomalyControlは、従来の手法と比較して、異常合成の最先端の結果を得ることができ、下流タスクでは優れた性能を示すことが示されている。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Reconciling Semantic Controllability and Diversity for Remote Sensing Image Synthesis with Hybrid Semantic Embedding [12.330893658398042]
本稿では,HySEGGAN(Hybrid Semantic Embedding Guided Geneversarative Adversarial Network)を提案する。
特徴記述をベースとして,局所的セマンティックレイアウトの微粒化を調整するハイブリッドセマンティック・エンベディング法を提案する。
セマンティック・リファインメント・ネットワーク(SRN)が導入された。
論文 参考訳(メタデータ) (2024-11-22T07:51:36Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion [31.338732251924103]
異常合成は、トレーニングのための異常サンプルを増強する有効な方法の1つである。
合成された異常サンプルの品質を高めるために,多モード情報を利用するAnomalyXFusionフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-30T10:48:43Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Updated version: A Video Anomaly Detection Framework based on
Appearance-Motion Semantics Representation Consistency [2.395616571632115]
本稿では,出現動作のセマンティックス一貫性表現の枠組みを提案する。
この2ストリーム構造は、通常のサンプルの外観および動き情報表現を符号化するように設計されている。
特徴セマンティクスの整合性を高めるために、一貫性の低い異常を識別できるように、新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:28:34Z) - Siamese Transition Masked Autoencoders as Uniform Unsupervised Visual
Anomaly Detector [4.33060257697635]
本稿では,様々な視覚異常検出タスクを均一に処理するための,Samese Transition Masked Autoencoders (ST-MAE) と呼ばれる新しいフレームワークを提案する。
我々の深い特徴遷移スキームは、通常のパターンを抽出する非教師付きセマンティックな自己監督タスクをもたらす。
論文 参考訳(メタデータ) (2022-11-01T09:45:49Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A Video Anomaly Detection Framework based on Appearance-Motion Semantics
Representation Consistency [18.06814233420315]
本稿では,正常データの外観と動作意味表現の整合性を利用して異常検出を行うフレームワークを提案する。
通常のサンプルの外観および動作情報表現を符号化する2ストリームエンコーダを設計する。
異常サンプルの外観と運動特性の低い一貫性は、より大きな再構成誤差で予測されたフレームを生成するために使用できる。
論文 参考訳(メタデータ) (2022-04-08T15:59:57Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。