論文の概要: EGSA-PT:Edge-Guided Spatial Attention with Progressive Training for Monocular Depth Estimation and Segmentation of Transparent Objects
- arxiv url: http://arxiv.org/abs/2511.14970v1
- Date: Tue, 18 Nov 2025 23:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.564157
- Title: EGSA-PT:Edge-Guided Spatial Attention with Progressive Training for Monocular Depth Estimation and Segmentation of Transparent Objects
- Title(参考訳): EGSA-PT:透明物体の単眼深度推定とセグメンテーションのためのプログレッシブトレーニングによるエッジガイド付き空間注意
- Authors: Gbenga Omotara, Ramy Farag, Seyed Mohamad Ali Tousi, G. N. DeSouza,
- Abstract要約: 本稿では,破壊的相互作用を緩和する融合機構であるエッジガイド空間注意(EGSA)を紹介する。
Syn-TODDとClearPoseのベンチマークでは、EGSAはアートメソッドの現在の状態よりも深度精度を一貫して改善した。
第2のコントリビューションはマルチモーダルなプログレッシブトレーニング戦略であり,RGB画像から得られたエッジから予測深度画像からのエッジへの学習移行を行う。
- 参考スコア(独自算出の注目度): 3.6327828943194937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transparent object perception remains a major challenge in computer vision research, as transparency confounds both depth estimation and semantic segmentation. Recent work has explored multi-task learning frameworks to improve robustness, yet negative cross-task interactions often hinder performance. In this work, we introduce Edge-Guided Spatial Attention (EGSA), a fusion mechanism designed to mitigate destructive interactions by incorporating boundary information into the fusion between semantic and geometric features. On both Syn-TODD and ClearPose benchmarks, EGSA consistently improved depth accuracy over the current state of the art method (MODEST), while preserving competitive segmentation performance, with the largest improvements appearing in transparent regions. Besides our fusion design, our second contribution is a multi-modal progressive training strategy, where learning transitions from edges derived from RGB images to edges derived from predicted depth images. This approach allows the system to bootstrap learning from the rich textures contained in RGB images, and then switch to more relevant geometric content in depth maps, while it eliminates the need for ground-truth depth at training time. Together, these contributions highlight edge-guided fusion as a robust approach capable of improving transparent object perception.
- Abstract(参考訳): 透過的物体認識は、深度推定とセマンティックセグメンテーションの両方に矛盾があるため、コンピュータビジョン研究において依然として大きな課題である。
最近の研究は、堅牢性を改善するためにマルチタスク学習フレームワークを探求しているが、ネガティブなクロスタスクインタラクションはパフォーマンスを阻害することが多い。
本研究では, 境界情報を意味的特徴と幾何学的特徴の融合に組み込むことにより, 破壊的相互作用を緩和する融合機構であるエッジガイド空間注意(EGSA)を導入する。
Syn-TODDとClearPoseのベンチマークでは、EGSAは競合セグメンテーション性能を保ちながら、現在の最先端法(MODEST)よりも深度精度を一貫して改善した。
融合設計以外にも,RGB画像から得られたエッジから予測深度画像からのエッジへの移行を学習するマルチモーダル・プログレッシブ・トレーニング戦略が提案されている。
このアプローチにより、RGB画像に含まれるリッチなテクスチャから学習をブートストラップし、深度マップのより関連する幾何学的内容に切り替えると同時に、トレーニング時の地底深度の必要性を排除できる。
これらのコントリビューションは、透明な物体知覚を改善するための堅牢なアプローチとして、エッジガイド融合を強調している。
関連論文リスト
- A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision--Revised [67.61878540090116]
本稿では,有意な物体検出だけでなく,前景の輪郭検出やエッジ検出から,その監視を活用して,有意性検出ネットワークを訓練することを提案する。
まず,一様ハイライトの有向マップを生成するために,有向物体検出タスクと前景輪郭検出タスクを相互に活用する。
第2に、前景輪郭とエッジ検出タスクが同時にガイドされ、それによって正確な前景輪郭予測が行われ、エッジ予測のための局所ノイズが低減される。
論文 参考訳(メタデータ) (2025-09-21T22:30:32Z) - DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects [9.235004977824026]
透過的および反射的オブジェクトのための新しいマルチモーダルディープコンプリートネットワークであるDCIRNetを提案する。
提案手法は,RGB画像と不完全深度マップ間の補完情報を抽出するための,革新的なマルチモーダル機能融合モジュールを組み込んだものである。
透明で反射的なオブジェクトの把握成功率を44%で改善しました。
論文 参考訳(メタデータ) (2025-06-11T08:04:22Z) - Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4174356345935393]
単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
論文 参考訳(メタデータ) (2025-05-27T14:15:19Z) - DistillGrasp: Integrating Features Correlation with Knowledge Distillation for Depth Completion of Transparent Objects [4.939414800373192]
RGB-Dカメラは透明な物体の深さを正確に捉えられない。
近年の研究では、新しい視覚的特徴を探求し、深度を再構築するための複雑なネットワークを設計する傾向にある。
本稿では,教師から学生への知識を蒸留するディスティルグラフという,効率的な深度補完ネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-01T07:17:10Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。