論文の概要: Glass Segmentation with Fusion of Learned and General Visual Features
- arxiv url: http://arxiv.org/abs/2603.03718v1
- Date: Wed, 04 Mar 2026 04:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.181892
- Title: Glass Segmentation with Fusion of Learned and General Visual Features
- Title(参考訳): 学習的特徴と一般的な視覚的特徴の融合によるガラスの分別
- Authors: Risto Ojala, Tristan Ellison, Mo Chen,
- Abstract要約: RGB画像からのガラス表面のセグメンテーションは、透明な材料としてのガラスが視覚的特徴をはっきりと欠いているため、難しい課題である。
本稿では,ガラスセグメンテーションのための新しいアーキテクチャを提案する。
アーキテクチャは4つの一般的なガラスセグメンテーションデータセットで評価され、いくつかの精度測定結果が得られた。
- 参考スコア(独自算出の注目度): 2.3821941487858935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Glass surface segmentation from RGB images is a challenging task, since glass as a transparent material distinctly lacks visual characteristics. However, glass segmentation is critical for scene understanding and robotics, as transparent glass surfaces must be identified as solid material. This paper presents a novel architecture for glass segmentation, deploying a dual-backbone producing general visual features as well as task-specific learned visual features. General visual features are produced by a frozen DINOv3 vision foundation model, and the task-specific features are generated with a Swin model trained in a supervised manner. Resulting multi-scale feature representations are downsampled with residual Squeeze-and-Excitation Channel Reduction, and fed into a Mask2Former Decoder, producing the final segmentation masks. The architecture was evaluated on four commonly used glass segmentation datasets, achieving state-of-the-art results on several accuracy metrics. The model also has a competitive inference speed compared to the previous state-of-the-art method, and surpasses it when using a lighter DINOv3 backbone variant. The implementation source code and model weights are available at: https://github.com/ojalar/lgnet
- Abstract(参考訳): RGB画像からのガラス表面のセグメンテーションは、透明な材料としてのガラスが視覚的特徴をはっきりと欠いているため、難しい課題である。
しかしながら、ガラスのセグメンテーションは、透明なガラス表面を固体物質として識別する必要があるため、シーン理解やロボット工学にとって重要である。
本稿では,ガラスセグメンテーションのための新しいアーキテクチャを提案する。
一般的な視覚的特徴は凍結したDINOv3視覚基盤モデルによって生成され、タスク固有の特徴は教師付き方法で訓練されたSwinモデルによって生成される。
結果として、マルチスケールな特徴表現は、残りのSqueeze-and-Excitation Channel Reductionでダウンサンプリングされ、Mask2Former Decoderに入力され、最終的なセグメンテーションマスクを生成する。
アーキテクチャは4つの一般的なガラスセグメンテーションデータセットで評価され、いくつかの精度測定結果が得られた。
モデルはまた、従来の最先端の手法と比較して、競合する推論速度を持ち、より軽量なDINOv3バックボーンを使用する場合、それを上回っている。
実装ソースコードとモデルの重み付けは、https://github.com/ojalar/lgnet.comで利用可能である。
関連論文リスト
- Power of Boundary and Reflection: Semantic Transparent Object Segmentation using Pyramid Vision Transformer with Transparent Cues [35.65981887193136]
本稿では,境界特徴強調および反射特徴強調モジュールによる強力な視覚的手がかりの導入を提案する。
提案するフレームワークであるTransCuesは、透明なオブジェクトをセグメント化するためのピラミッド変換器エンコーダデコーダアーキテクチャである。
提案手法は,Trans10K-v2で+4.2% mIoU,MSDで+5.6% mIoU,RGBD-Mirrorで+10.1% mIoU,TROSDで+13.1% mIoU,Stanford2D3Dで+8.3% mIoUを達成している。
論文 参考訳(メタデータ) (2025-12-07T22:52:53Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Glass Segmentation with Multi Scales and Primary Prediction Guiding [2.66512000865131]
ガラスのような物体は、日々の生活の中でどこにでも見えます。
本稿では,FineRescaling and Merging Module (FRM) から構成されるMGNetを提案する。
高信頼セグメンテーションマップを作成するために,不確実性を考慮した新たな損失関数を用いてモデルを監督する。
論文 参考訳(メタデータ) (2024-02-13T16:14:32Z) - GEM: Boost Simple Network for Glass Surface Segmentation via Segment
Anything Model and Data Synthesis [3.97478982737167]
ガラス表面をより高精度に分割する方法を,Segment Anything (SAM) と Stable Diffusion の2つの視覚基盤モデルを用いて示す。
また,S-GSDと呼ばれる4つのスケールの拡散モデルを用いて,S-GSDと呼ばれる大規模なガラス表面検出データセットを提案する。
このデータセットは、転送学習のための実現可能な情報源である。合成データの規模は、転送学習に肯定的な影響を与える一方で、データの量が増えるにつれて徐々に改善される。
論文 参考訳(メタデータ) (2024-01-27T03:36:47Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models [7.423981028880871]
ガラスの表面検出は、その透明さと反射特性に固有の曖昧さのために難しい課題である。
我々は、既存の2つのビジョン基盤モデル(VFM)の能力をフル活用して、これらの問題を解決することを提案する。
我々のGEMは、これらの2つのVFMの助けを借りて、新しい最先端の性能を確立し、2.1%のIoU改善でGlassSemNetを抜いた。
論文 参考訳(メタデータ) (2023-07-22T08:37:23Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Leveraging RGB-D Data with Cross-Modal Context Mining for Glass Surface Detection [47.87834602551456]
ガラスの表面は、現代の建物が多くのガラスパネルを使用する傾向にあるため、ますます広くなっている。
これは、ロボット、自動運転車、ドローンなどの自律システムの運用に重大な課題をもたらす。
RGBと深度情報を組み合わせた新しいガラス表面検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:56:09Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。