論文の概要: Leveraging RGB-D Data with Cross-Modal Context Mining for Glass Surface Detection
- arxiv url: http://arxiv.org/abs/2206.11250v2
- Date: Mon, 16 Dec 2024 15:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:31.632842
- Title: Leveraging RGB-D Data with Cross-Modal Context Mining for Glass Surface Detection
- Title(参考訳): ガラス表面検出のためのクロスモーダルコンテキストマイニングによるRGB-Dデータの活用
- Authors: Jiaying Lin, Yuen-Hei Yeung, Shuquan Ye, Rynson W. H. Lau,
- Abstract要約: ガラスの表面は、現代の建物が多くのガラスパネルを使用する傾向にあるため、ますます広くなっている。
これは、ロボット、自動運転車、ドローンなどの自律システムの運用に重大な課題をもたらす。
RGBと深度情報を組み合わせた新しいガラス表面検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.87834602551456
- License:
- Abstract: Glass surfaces are becoming increasingly ubiquitous as modern buildings tend to use a lot of glass panels. This, however, poses substantial challenges to the operations of autonomous systems such as robots, self-driving cars, and drones, as these glass panels can become transparent obstacles to navigation. Existing works attempt to exploit various cues, including glass boundary context or reflections, as priors. However, they are all based on input RGB images. We observe that the transmission of 3D depth sensor light through glass surfaces often produces blank regions in the depth maps, which can offer additional insights to complement the RGB image features for glass surface detection. In this work, we first propose a large-scale RGB-D glass surface detection dataset, \textit{RGB-D GSD}, for rigorous experiments and future research. It contains 3,009 images, paired with precise annotations, offering a wide range of real-world RGB-D glass surface categories. We then propose a novel glass surface detection framework combining RGB and depth information, with two novel modules: a cross-modal context mining (CCM) module to adaptively learn individual and mutual context features from RGB and depth information, and a depth-missing aware attention (DAA) module to explicitly exploit spatial locations where missing depths occur to help detect the presence of glass surfaces. Experimental results show that our proposed model outperforms state-of-the-art methods.
- Abstract(参考訳): ガラスの表面は、現代の建物が多くのガラスパネルを使用する傾向にあるため、ますます広くなっている。
しかし、これらのガラスパネルがナビゲーションの透明な障害となるため、ロボットや自動運転車、ドローンといった自律システムの運用には大きな課題が伴う。
既存の作品は、ガラス境界コンテキストや反射などの様々な手がかりを先行として活用しようと試みている。
しかし、これらはすべて入力されたRGB画像に基づいている。
ガラス表面からの3次元奥行きセンサ光の透過は、しばしば深度マップの空白領域を発生するので、ガラス表面検出のためのRGB画像の特徴を補完する追加の洞察を与えることができる。
本研究ではまず,厳密な実験と今後の研究のために,大規模RGB-Dガラス表面検出データセット \textit{RGB-D GSD} を提案する。
3,009枚の画像と正確なアノテーションが組み合わさり、さまざまなリアルなRGB-Dガラスの表面カテゴリを提供する。
次に、RGBと深度情報を組み合わせた新しいガラス表面検出フレームワークを提案し、RGBと深度情報から個人と相互のコンテキスト特徴を適応的に学習するクロスモーダルコンテキストマイニング(CCM)モジュールと、行方不明の深度が存在する空間位置を明示的に利用してガラス表面の存在を検出する深度認識(DAA)モジュールを提案する。
実験の結果,提案手法は最先端の手法よりも優れていた。
関連論文リスト
- 3DRef: 3D Dataset and Benchmark for Reflection Detection in RGB and
Lidar Data [0.0]
本稿では,マルチリターンライダー,RGB画像,および2D/3Dセマンティックラベルの5万以上のサンプルを含む,最初の大規模3D反射検出データセットを提案する。
提案したデータセットは, 高精度なグローバルアライメント, マルチモーダルデータ, 多様な反射物体や材料を備えた総合的なテストベッドを提供することにより, 反射検出を推し進める。
論文 参考訳(メタデータ) (2024-03-11T09:29:44Z) - RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - Large-Field Contextual Feature Learning for Glass Detection [44.222075782263175]
ガラス表面を1枚のRGB画像から検出する重要な問題を提案する。
この問題に対処するため、我々は最初の大規模ガラス検出データセット(GDD)を構築した。
本稿では,GDNet-Bと呼ばれる新しいガラス検出ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-10T11:08:05Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision [51.385731364529306]
本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。
本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
論文 参考訳(メタデータ) (2022-07-03T22:31:47Z) - GlassNet: Label Decoupling-based Three-stream Neural Network for Robust
Image Glass Detection [1.1825946875790057]
我々はラベルデカップリングを利用してラベル付き接地トラス(GT)マップを内部拡散マップと境界拡散マップに分解する。
新たに生成された2つの地図と協調したGTマップは、オブジェクト境界の不均衡分布を破り、ガラス検出品質が向上する。
マルチモーダル情報を統合するために,アテンションベースの境界認識機能であるMosaicモジュールを開発した。
論文 参考訳(メタデータ) (2021-08-25T08:33:49Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。