論文の概要: MVGD-Net: A Novel Motion-aware Video Glass Surface Detection Network
- arxiv url: http://arxiv.org/abs/2601.13715v1
- Date: Tue, 20 Jan 2026 08:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.222902
- Title: MVGD-Net: A Novel Motion-aware Video Glass Surface Detection Network
- Title(参考訳): MVGD-Net:新しいモーション対応ビデオガラス表面検出ネットワーク
- Authors: Yiwei Lu, Hao Huang, Tao Yan,
- Abstract要約: ガラスの表面は、日常生活とプロの環境の両方でユビキタスであり、視覚ベースのシステムに潜在的な脅威をもたらす。
動きの不整合を利用して映像中のガラス表面を検出するための新しいネットワークMVGD-Netを提案する。
ネットワークの学習には,312種類のガラスシナリオと合計19,268フレームからなる大規模データセットも提案する。
- 参考スコア(独自算出の注目度): 7.190998786246486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Glass surface ubiquitous in both daily life and professional environments presents a potential threat to vision-based systems, such as robot and drone navigation. To solve this challenge, most recent studies have shown significant interest in Video Glass Surface Detection (VGSD). We observe that objects in the reflection (or transmission) layer appear farther from the glass surfaces. Consequently, in video motion scenarios, the notable reflected (or transmitted) objects on the glass surface move slower than objects in non-glass regions within the same spatial plane, and this motion inconsistency can effectively reveal the presence of glass surfaces. Based on this observation, we propose a novel network, named MVGD-Net, for detecting glass surfaces in videos by leveraging motion inconsistency cues. Our MVGD-Net features three novel modules: the Cross-scale Multimodal Fusion Module (CMFM) that integrates extracted spatial features and estimated optical flow maps, the History Guided Attention Module (HGAM) and Temporal Cross Attention Module (TCAM), both of which further enhances temporal features. A Temporal-Spatial Decoder (TSD) is also introduced to fuse the spatial and temporal features for generating the glass region mask. Furthermore, for learning our network, we also propose a large-scale dataset, which comprises 312 diverse glass scenarios with a total of 19,268 frames. Extensive experiments demonstrate that our MVGD-Net outperforms relevant state-of-the-art methods.
- Abstract(参考訳): ガラスの表面は、日常生活とプロの環境の両方でユビキタスであり、ロボットやドローンナビゲーションといったビジョンベースのシステムに潜在的な脅威をもたらす。
この課題を解決するため、近年の研究では、ビデオガラス表面検出(VGSD)に大きな関心が寄せられている。
反射層(または透過層)の物体がガラス表面から遠くに現れるのを観察する。
したがって、ビデオモーションのシナリオでは、ガラス表面上の顕著な反射(または透過)物体は同じ空間面内の非ガラス領域の物体よりも遅く動き、この運動の不整合はガラス表面の存在を効果的に明らかにすることができる。
そこで本研究では,動きの不整合性を利用して映像中のガラス表面を検出する新しいネットワークMVGD-Netを提案する。
我々のMVGD-Netは、抽出された空間的特徴と推定された光フローマップを統合するCross-scale Multimodal Fusion Module (CMFM)、History Guided Attention Module (HGAM)とTemporal Cross Attention Module (TCAM)の3つの新しいモジュールを特徴としている。
ガラス領域マスクを生成するための空間的特徴と時間的特徴を融合するために、TSD(Temporal-Spatial Decoder)も導入された。
さらに,ネットワークを学習するために,312種類のガラスシナリオと合計19,268フレームからなる大規模データセットを提案する。
我々のMVGD-Netは、関連する最先端の手法よりも優れています。
関連論文リスト
- Glass Surface Detection: Leveraging Reflection Dynamics in Flash/No-flash Imagery [82.6332672749888]
ガラスの表面は日常生活においてユビキタスであり、通常は無色で透明で、特徴に欠ける。
NFGlassNetは,フラッシュ/ノフラッシュ画像に現れる反射ダイナミクスを利用するガラス表面検出の新しい手法である。
論文 参考訳(メタデータ) (2025-11-21T02:00:17Z) - MotionBEV: Attention-Aware Online LiDAR Moving Object Segmentation with
Bird's Eye View based Appearance and Motion Features [5.186531650935954]
我々は、LiDAR移動物体セグメンテーションのための高速かつ正確なフレームワークであるMotionBEVを紹介する。
提案手法では,3次元LiDARスキャンを2次元極性BEV表現に変換し,計算効率を向上させる。
我々は、外観・動作特徴からLiDAR時間情報を適応的に融合させるために、AMCM(Adearance-Motion Co-attention Module)でブリッジされたデュアルブランチネットワークを使用する。
論文 参考訳(メタデータ) (2023-05-12T09:28:09Z) - Large-Field Contextual Feature Learning for Glass Detection [44.222075782263175]
ガラス表面を1枚のRGB画像から検出する重要な問題を提案する。
この問題に対処するため、我々は最初の大規模ガラス検出データセット(GDD)を構築した。
本稿では,GDNet-Bと呼ばれる新しいガラス検出ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-10T11:08:05Z) - Leveraging RGB-D Data with Cross-Modal Context Mining for Glass Surface Detection [47.87834602551456]
ガラスの表面は、現代の建物が多くのガラスパネルを使用する傾向にあるため、ますます広くなっている。
これは、ロボット、自動運転車、ドローンなどの自律システムの運用に重大な課題をもたらす。
RGBと深度情報を組み合わせた新しいガラス表面検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:56:09Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - GlassNet: Label Decoupling-based Three-stream Neural Network for Robust
Image Glass Detection [1.1825946875790057]
我々はラベルデカップリングを利用してラベル付き接地トラス(GT)マップを内部拡散マップと境界拡散マップに分解する。
新たに生成された2つの地図と協調したGTマップは、オブジェクト境界の不均衡分布を破り、ガラス検出品質が向上する。
マルチモーダル情報を統合するために,アテンションベースの境界認識機能であるMosaicモジュールを開発した。
論文 参考訳(メタデータ) (2021-08-25T08:33:49Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。