論文の概要: AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion
- arxiv url: http://arxiv.org/abs/2404.19444v1
- Date: Tue, 30 Apr 2024 10:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:34:58.862612
- Title: AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion
- Title(参考訳): AnomalyXFusion:拡散を用いた多モード異常合成
- Authors: Jie Hu, Yawen Huang, Yilin Lu, Guoyang Xie, Guannan Jiang, Yefeng Zheng,
- Abstract要約: 異常合成は、トレーニングのための異常サンプルを増強する有効な方法の1つである。
合成された異常サンプルの品質を高めるために,多モード情報を利用するAnomalyXFusionフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.405321889928295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Anomaly synthesis is one of the effective methods to augment abnormal samples for training. However, current anomaly synthesis methods predominantly rely on texture information as input, which limits the fidelity of synthesized abnormal samples. Because texture information is insufficient to correctly depict the pattern of anomalies, especially for logical anomalies. To surmount this obstacle, we present the AnomalyXFusion framework, designed to harness multi-modality information to enhance the quality of synthesized abnormal samples. The AnomalyXFusion framework comprises two distinct yet synergistic modules: the Multi-modal In-Fusion (MIF) module and the Dynamic Dif-Fusion (DDF) module. The MIF module refines modality alignment by aggregating and integrating various modality features into a unified embedding space, termed X-embedding, which includes image, text, and mask features. Concurrently, the DDF module facilitates controlled generation through an adaptive adjustment of X-embedding conditioned on the diffusion steps. In addition, to reveal the multi-modality representational power of AnomalyXFusion, we propose a new dataset, called MVTec Caption. More precisely, MVTec Caption extends 2.2k accurate image-mask-text annotations for the MVTec AD and LOCO datasets. Comprehensive evaluations demonstrate the effectiveness of AnomalyXFusion, especially regarding the fidelity and diversity for logical anomalies. Project page: http:github.com/hujiecpp/MVTec-Caption
- Abstract(参考訳): 異常合成は、トレーニングのための異常サンプルを増強する有効な方法の1つである。
しかし、現在の異常合成法は、主に、合成された異常サンプルの忠実度を制限する入力としてのテクスチャ情報に依存している。
テクスチャ情報は、特に論理的異常に対して、異常のパターンを正しく表現するには不十分である。
この障害を克服するため、合成された異常サンプルの品質を高めるために多モード情報を利用するAnomalyXFusionフレームワークを提案する。
AnomalyXFusionフレームワークは、Multi-modal In-Fusion (MIF)モジュールとDynamic Dif-Fusion (DDF)モジュールの2つの異なる相乗的モジュールで構成されている。
MIFモジュールは、画像、テキスト、マスク機能を含むX埋め込みと呼ばれる、様々なモダリティ機能を統合された埋め込み空間に集約して統合することで、モダリティアライメントを洗練する。
同時に、DDFモジュールは拡散ステップに条件付きX埋め込みの適応調整により制御生成を容易にする。
さらに,AnomalyXFusionのマルチモーダル表現能力を明らかにするために,MVTec Captionと呼ばれる新しいデータセットを提案する。
より正確には、MVTec CaptionはMVTec ADとLOCOデータセットのための2.2kの正確な画像マスクテキストアノテーションを拡張する。
総合的な評価はAnomalyXFusionの有効性を示し、特に論理的異常に対する忠実度と多様性についてである。
プロジェクトページ:http:github.com/hujiecpp/MVTec-Caption
関連論文リスト
- CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - TransFusion: Contrastive Learning with Transformers [0.0]
TransFusionは、コントラスト学習のプロセスをより分析的で説明しやすいものにするために設計されている。
結果は、TransFusionが複雑な実世界のデータからクラスタを分離する機能をうまく抽出していることを示している。
論文 参考訳(メタデータ) (2024-03-27T15:24:54Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation [110.23359628821542]
本稿では,大語彙のインスタンスセグメンテーションのための拡散に基づくデータ拡張手法を提案する。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
MosaicFusionは既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale [36.590918776922905]
本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
論文 参考訳(メタデータ) (2023-03-12T03:38:39Z) - TFormer: A throughout fusion transformer for multi-modal skin lesion
diagnosis [6.899641625551976]
我々は,MSLDで十分な情報干渉を行うために,純粋なトランスフォーマーベースのTFormer(スルーアウト・フュージョン・トランスフォーマー)を提案する。
そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,ステージバイステージ方式で異なる画像モダリティ間で情報を融合する。
我々のTFormerは、他の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-11-21T12:07:05Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。