論文の概要: GEM: Boost Simple Network for Glass Surface Segmentation via Segment
Anything Model and Data Synthesis
- arxiv url: http://arxiv.org/abs/2401.15282v1
- Date: Sat, 27 Jan 2024 03:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:59:29.762029
- Title: GEM: Boost Simple Network for Glass Surface Segmentation via Segment
Anything Model and Data Synthesis
- Title(参考訳): GEM:Segment Anything Modelとデータ合成によるガラス表面セグメンテーションのための簡易ネットワーク
- Authors: Jing Hao, Moyun Liu, Kuo Feng Hung
- Abstract要約: ガラス表面をより高精度に分割する方法を,Segment Anything (SAM) と Stable Diffusion の2つの視覚基盤モデルを用いて示す。
また,S-GSDと呼ばれる4つのスケールの拡散モデルを用いて,S-GSDと呼ばれる大規模なガラス表面検出データセットを提案する。
このデータセットは、転送学習のための実現可能な情報源である。合成データの規模は、転送学習に肯定的な影響を与える一方で、データの量が増えるにつれて徐々に改善される。
- 参考スコア(独自算出の注目度): 3.97478982737167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting glass regions is a challenging task due to the ambiguity of their
transparency and reflection properties. These transparent glasses share the
visual appearance of both transmitted arbitrary background scenes and reflected
objects, thus having no fixed patterns.Recent visual foundation models, which
are trained on vast amounts of data, have manifested stunning performance in
terms of image perception and image generation. To segment glass surfaces with
higher accuracy, we make full use of two visual foundation models: Segment
Anything (SAM) and Stable Diffusion.Specifically, we devise a simple glass
surface segmentor named GEM, which only consists of a SAM backbone, a simple
feature pyramid, a discerning query selection module, and a mask decoder. The
discerning query selection can adaptively identify glass surface features,
assigning them as initialized queries in the mask decoder. We also propose a
Synthetic but photorealistic large-scale Glass Surface Detection dataset dubbed
S-GSD via diffusion model with four different scales, which contain 1x, 5x,
10x, and 20x of the original real data size. This dataset is a feasible source
for transfer learning. The scale of synthetic data has positive impacts on
transfer learning, while the improvement will gradually saturate as the amount
of data increases. Extensive experiments demonstrate that GEM achieves a new
state-of-the-art on the GSD-S validation set (IoU +2.1%). Codes and datasets
are available at: https://github.com/isbrycee/GEM-Glass-Segmentor.
- Abstract(参考訳): ガラス領域の検出は透明性と反射特性の曖昧さのために難しい課題である。
これらの透明メガネは、任意の背景シーンと反射されたオブジェクトの両方の視覚的な外観を共有しており、固定されたパターンを持たない。
ガラス表面を高精度にセグメンテーションするために,2つの視覚基盤モデル (segment anything (sam) とstable diffusion) をフル活用した。具体的には,samバックボーン,単純な機能ピラミッド,識別クエリ選択モジュール,マスクデコーダのみからなる,gemと呼ばれる単純なガラス表面セグメンタを考案する。
識別クエリ選択は、ガラス表面の特徴を適応的に識別し、マスクデコーダの初期化クエリとして割り当てる。
また,S-GSDと呼ばれる4種類の拡散モデルを用いて,S-GSDと呼ばれる合成だが光現実的な大規模ガラス表面検出データセットを提案する。
このデータセットは、転送学習の可能なソースです。
合成データのスケールは、転送学習にプラスの影響を与えるが、データ量が増えるにつれて、改善は徐々に飽和していく。
大規模な実験により、GEMはGSD-S検証セット(IoU + 2.1%)上で新しい最先端技術を達成することが示された。
コードとデータセットは、https://github.com/isbrycee/GEM-Glass-Segmentor.comで入手できる。
関連論文リスト
- Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Glass Segmentation with Multi Scales and Primary Prediction Guiding [2.66512000865131]
ガラスのような物体は、日々の生活の中でどこにでも見えます。
本稿では,FineRescaling and Merging Module (FRM) から構成されるMGNetを提案する。
高信頼セグメンテーションマップを作成するために,不確実性を考慮した新たな損失関数を用いてモデルを監督する。
論文 参考訳(メタデータ) (2024-02-13T16:14:32Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models [7.423981028880871]
ガラスの表面検出は、その透明さと反射特性に固有の曖昧さのために難しい課題である。
我々は、既存の2つのビジョン基盤モデル(VFM)の能力をフル活用して、これらの問題を解決することを提案する。
我々のGEMは、これらの2つのVFMの助けを借りて、新しい最先端の性能を確立し、2.1%のIoU改善でGlassSemNetを抜いた。
論文 参考訳(メタデータ) (2023-07-22T08:37:23Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。