論文の概要: Semantic Segmentation of Transparent and Opaque Drinking Glasses with the Help of Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2503.15004v1
- Date: Wed, 19 Mar 2025 08:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:34.159476
- Title: Semantic Segmentation of Transparent and Opaque Drinking Glasses with the Help of Zero-shot Learning
- Title(参考訳): ゼロショット学習による透明・不透明飲料ガラスのセマンティックセグメンテーション
- Authors: Annalena Blänsdorf, Tristan Wirth, Arne Rak, Thomas Pöllabauer, Volker Knauthe, Arjan Kuijper,
- Abstract要約: ゼロショットモデルCaGNetの修正版であるTransCaGNetを提案する。
ゼロショット学習を使用して、トレーニング中に与えないガラスカテゴリの意味的なセグメンテーションを作成できます。
また,TransCaGNetではIoUと精度が向上し,ZegClipでは未確認クラスの方が優れていた。
- 参考スコア(独自算出の注目度): 4.23895653489492
- License:
- Abstract: Segmenting transparent structures in images is challenging since they are difficult to distinguish from the background. Common examples are drinking glasses, which are a ubiquitous part of our lives and appear in many different shapes and sizes. In this work we propose TransCaGNet, a modified version of the zero-shot model CaGNet. We exchange the segmentation backbone with the architecture of Trans4Trans to be capable of segmenting transparent objects. Since some glasses are rarely captured, we use zeroshot learning to be able to create semantic segmentations of glass categories not given during training. We propose a novel synthetic dataset covering a diverse set of different environmental conditions. Additionally we capture a real-world evaluation dataset since most applications take place in the real world. Comparing our model with Zeg-Clip we are able to show that TransCaGNet produces better mean IoU and accuracy values while ZegClip outperforms it mostly for unseen classes. To improve the segmentation results, we combine the semantic segmentation of the models with the segmentation results of SAM 2. Our evaluation emphasizes that distinguishing between different classes is challenging for the models due to similarity, points of view, or coverings. Taking this behavior into account, we assign glasses multiple possible categories. The modification leads to an improvement up to 13.68% for the mean IoU and up to 17.88% for the mean accuracy values on the synthetic dataset. Using our difficult synthetic dataset for training, the models produce even better results on the real-world dataset. The mean IoU is improved up to 5.55% and the mean accuracy up to 5.72% on the real-world dataset.
- Abstract(参考訳): 背景と区別が難しいため,画像中の透明な構造を分離することは困難である。
一般的な例は、私たちの生活のユビキタスな部分であり、さまざまな形や大きさで現れる飲酒グラスです。
本研究では,ゼロショットモデルCaGNetの修正版であるTransCaGNetを提案する。
セグメンテーションバックボーンとTrans4Transのアーキテクチャを交換し、透明なオブジェクトをセグメンテーションできる。
いくつかのメガネはめったに捕獲されないため、ゼロショット学習を用いて、トレーニング中に与えられないガラスカテゴリーのセマンティックセグメンテーションを作成することができる。
多様な環境条件を包含する新しい合成データセットを提案する。
さらに、ほとんどのアプリケーションが現実世界で実行されるので、実際の評価データセットも取得します。
モデルとZeg-Clipを比較すると、TransCaGNetはIoUと精度が向上し、ZegClipは未確認のクラスで性能が向上することを示している。
セグメンテーション結果を改善するために、モデルのセグメンテーションとSAM 2のセグメンテーション結果を組み合わせる。
我々の評価は、類似性、視点、被覆性により、異なるクラスを区別することが、モデルにとって困難であることを強調している。
この振る舞いを考慮に入れれば、複数の可能なカテゴリに眼鏡を割り当てる。
この修正により、平均IoUが13.68%、合成データセットの平均精度が17.88%まで改善された。
トレーニングに難しい合成データセットを使用することで、実世界のデータセット上でさらに優れた結果が得られるのです。
平均IoUは5.55%まで改善され、平均精度は5.72%まで向上した。
関連論文リスト
- GEM: Boost Simple Network for Glass Surface Segmentation via Segment
Anything Model and Data Synthesis [3.97478982737167]
ガラス表面をより高精度に分割する方法を,Segment Anything (SAM) と Stable Diffusion の2つの視覚基盤モデルを用いて示す。
また,S-GSDと呼ばれる4つのスケールの拡散モデルを用いて,S-GSDと呼ばれる大規模なガラス表面検出データセットを提案する。
このデータセットは、転送学習のための実現可能な情報源である。合成データの規模は、転送学習に肯定的な影響を与える一方で、データの量が増えるにつれて徐々に改善される。
論文 参考訳(メタデータ) (2024-01-27T03:36:47Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - CoNe: Contrast Your Neighbours for Supervised Image Classification [62.12074282211957]
Contrast Your Neighbours (CoNe)は、教師付き画像分類のための学習フレームワークである。
CoNeは、より適応的で洗練されたターゲットを生成するために、類似した隣人の特徴をアンカーとして採用している。
私たちのCoNeは、最近のTimトレーニングレシピを上回るResNet-50で、ImageNetの80.8%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2023-08-21T14:49:37Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。