論文の概要: LERENet: Eliminating Intra-class Differences for Metal Surface Defect Few-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.11122v1
- Date: Sun, 17 Mar 2024 07:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:25:46.489076
- Title: LERENet: Eliminating Intra-class Differences for Metal Surface Defect Few-shot Semantic Segmentation
- Title(参考訳): LERENet:金属表面欠陥のセマンティックセマンティックセグメンテーションにおけるクラス内差の除去
- Authors: Hanze Ding, Zhangkai Wu, Jiyan Zhang, Ming Ping, Yanfang Liu,
- Abstract要約: 我々は、textbfLocal dtextbfEscriptor ベースの textbfReasoning と textbfExcitation textbfNetwork を導入し、2ビューガイダンスを学習した。
グラフ空間に埋め込まれた局所的特徴の関係構造は、textitSemantic differenceを排除するのに役立つため、マルチプロトタイプ推論(MPR)モジュールを用いる。
また,Multi-Prototype Excitation (MPE) モジュールを用いて,サポートにおけるグローバルビューの関係を捉える。
- 参考スコア(独自算出の注目度): 3.1457219084519004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot segmentation models excel in metal defect detection due to their rapid generalization ability to new classes and pixel-level segmentation, rendering them ideal for addressing data scarcity issues and achieving refined object delineation in industrial applications. Existing works neglect the \textit{Intra-Class Differences}, inherent in metal surface defect data, which hinders the model from learning sufficient knowledge from the support set to guide the query set segmentation. Specifically, it can be categorized into two types: the \textit{Semantic Difference} induced by internal factors in metal samples and the \textit{Distortion Difference} caused by external factors of surroundings. To address these differences, we introduce a \textbf{L}ocal d\textbf{E}scriptor based \textbf{R}easoning and \textbf{E}xcitation \textbf{Net}work (\textbf{LERENet}) to learn the two-view guidance, i.e., local and global information from the graph and feature space, and fuse them to segment precisely. Since the relation structure of local features embedded in graph space will help to eliminate \textit{Semantic Difference}, we employ Multi-Prototype Reasoning (MPR) module, extracting local descriptors based prototypes and analyzing local-view feature relevance in support-query pairs. Besides, due to the global information that will assist in countering the \textit{Distortion Difference} in observations, we utilize Multi-Prototype Excitation (MPE) module to capture the global-view relations in support-query pairs. Finally, we employ an Information Fusion Module (IFM) to fuse learned prototypes in local and global views to generate pixel-level masks. Our comprehensive experiments on defect datasets demonstrate that it outperforms existing benchmarks, establishing a new state-of-the-art.
- Abstract(参考訳): 新しいクラスやピクセルレベルのセグメンテーションへの迅速な一般化能力により、金属欠陥検出に優れており、データ不足の問題に対処し、工業アプリケーションで洗練されたオブジェクトデライン化を実現するのに理想的である。
既存の作業は、金属表面欠陥データに固有の \textit{Intra-Class differences} を無視しており、クエリセットセグメンテーションを導くためのサポートセットから十分な知識を学ぶのを妨げる。
具体的には、金属試料の内部因子によって誘導される「textit{Semantic difference」と、周囲の外部因子によって引き起こされる「textit{Distortion difference」の2種類に分類される。
これらの違いに対処するために、グラフと特徴空間からの局所的およびグローバル的情報、すなわちグラフと特徴空間からの局所的およびグローバル的情報を学ぶために、 \textbf{L}ocal d\textbf{E}scriptor based \textbf{R}easoning と \textbf{E}xcitation \textbf{Net}work (\textbf{LERENet})を導入する。
グラフ空間に埋め込まれた局所的特徴の関係構造は、 \textit{Semantic difference} の排除に役立つため、マルチプロトタイプ推論(MPR)モジュールを使用し、ローカルな記述子ベースのプロトタイプを抽出し、サポートクエリ対における局所的な特徴の関連性を分析する。
また,観測における「textit{Distortion difference}」の対応を支援するグローバル情報により,マルチプロトタイプ・エキサイティング(MPE)モジュールを用いて,サポートクエリペアのグローバルビュー関係をキャプチャする。
最後に,情報融合モジュール(IFM)を用いて,学習したプロトタイプを局所的・グローバル的に融合し,ピクセルレベルのマスクを生成する。
欠陥データセットに関する包括的な実験は、既存のベンチマークを上回り、新しい最先端技術を確立することを実証しています。
関連論文リスト
- GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。