論文の概要: Power of Boundary and Reflection: Semantic Transparent Object Segmentation using Pyramid Vision Transformer with Transparent Cues
- arxiv url: http://arxiv.org/abs/2512.07034v1
- Date: Sun, 07 Dec 2025 22:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.649014
- Title: Power of Boundary and Reflection: Semantic Transparent Object Segmentation using Pyramid Vision Transformer with Transparent Cues
- Title(参考訳): 境界と反射の力:透明キューを用いたピラミッド型視覚変換器を用いた意味的透明物体セグメンテーション
- Authors: Tuan-Anh Vu, Hai Nguyen-Truong, Ziqiang Zheng, Binh-Son Hua, Qing Guo, Ivor Tsang, Sai-Kit Yeung,
- Abstract要約: 本稿では,境界特徴強調および反射特徴強調モジュールによる強力な視覚的手がかりの導入を提案する。
提案するフレームワークであるTransCuesは、透明なオブジェクトをセグメント化するためのピラミッド変換器エンコーダデコーダアーキテクチャである。
提案手法は,Trans10K-v2で+4.2% mIoU,MSDで+5.6% mIoU,RGBD-Mirrorで+10.1% mIoU,TROSDで+13.1% mIoU,Stanford2D3Dで+8.3% mIoUを達成している。
- 参考スコア(独自算出の注目度): 35.65981887193136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Glass is a prevalent material among solid objects in everyday life, yet segmentation methods struggle to distinguish it from opaque materials due to its transparency and reflection. While it is known that human perception relies on boundary and reflective-object features to distinguish glass objects, the existing literature has not yet sufficiently captured both properties when handling transparent objects. Hence, we propose incorporating both of these powerful visual cues via the Boundary Feature Enhancement and Reflection Feature Enhancement modules in a mutually beneficial way. Our proposed framework, TransCues, is a pyramidal transformer encoder-decoder architecture to segment transparent objects. We empirically show that these two modules can be used together effectively, improving overall performance across various benchmark datasets, including glass object semantic segmentation, mirror object semantic segmentation, and generic segmentation datasets. Our method outperforms the state-of-the-art by a large margin, achieving +4.2% mIoU on Trans10K-v2, +5.6% mIoU on MSD, +10.1% mIoU on RGBD-Mirror, +13.1% mIoU on TROSD, and +8.3% mIoU on Stanford2D3D, showing the effectiveness of our method against glass objects.
- Abstract(参考訳): ガラスは、日常生活において固形物の中で一般的な物質であるが、その透明さと反射によって不透明な物質と区別するためには、セグメンテーション法が困難である。
ヒトの知覚はガラスの物体を識別するために境界と反射物体の特徴に依存していることが知られているが、既存の文献は透明物体を扱う際に両方の特性を十分に捉えていない。
そこで本稿では,境界特徴強調モジュールと反射特徴強調モジュールを相互に有益な方法で組み込むことによって,これらの強力な視覚的手がかりを両立させることを提案する。
提案するフレームワークであるTransCuesは、透明なオブジェクトをセグメント化するためのピラミッド変換器エンコーダデコーダアーキテクチャである。
この2つのモジュールは,ガラスオブジェクトセマンティックセグメンテーション,ミラーオブジェクトセマンティックセグメンテーション,ジェネリックセグメンテーションセグメンテーションなど,さまざまなベンチマークデータセット全体のパフォーマンスを向上する。
提案手法は,Trans10K-v2で+4.2% mIoU,MSDで+5.6% mIoU,RGBD-Mirrorで+10.1% mIoU,TROSDで+13.1% mIoU,Stanford2D3Dで+8.3% mIoUを達成し,ガラスオブジェクトに対する効果を示した。
関連論文リスト
- EGSA-PT:Edge-Guided Spatial Attention with Progressive Training for Monocular Depth Estimation and Segmentation of Transparent Objects [3.6327828943194937]
本稿では,破壊的相互作用を緩和する融合機構であるエッジガイド空間注意(EGSA)を紹介する。
Syn-TODDとClearPoseのベンチマークでは、EGSAはアートメソッドの現在の状態よりも深度精度を一貫して改善した。
第2のコントリビューションはマルチモーダルなプログレッシブトレーニング戦略であり,RGB画像から得られたエッジから予測深度画像からのエッジへの学習移行を行う。
論文 参考訳(メタデータ) (2025-11-18T23:29:20Z) - Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion [9.391182087420926]
本稿では,透明物体のセグメンテーションと深さ推定の両面において,初めて優れたモノクラーフレームワークを提案する。
具体的には,タスク間のマルチスケール情報を効果的に統合する,新しい意味的および幾何学的融合モジュールを考案する。
2つの挑戦的な合成および実世界のデータセットの実験により、我々のモデルは最先端のモノクル、ステレオ、マルチビューメソッドを大きなマージンで超越していることが示された。
論文 参考訳(メタデータ) (2025-02-20T14:57:01Z) - Weak-to-Strong 3D Object Detection with X-Ray Distillation [75.47580744933724]
本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。
オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。
提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
論文 参考訳(メタデータ) (2024-03-31T13:09:06Z) - Glass Segmentation with Multi Scales and Primary Prediction Guiding [2.66512000865131]
ガラスのような物体は、日々の生活の中でどこにでも見えます。
本稿では,FineRescaling and Merging Module (FRM) から構成されるMGNetを提案する。
高信頼セグメンテーションマップを作成するために,不確実性を考慮した新たな損失関数を用いてモデルを監督する。
論文 参考訳(メタデータ) (2024-02-13T16:14:32Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。