Fugu-MT 論文翻訳(概要): Depth-guided Texture Diffusion for Image Semantic Segmentation

論文の概要: Depth-guided Texture Diffusion for Image Semantic Segmentation

arxiv url: http://arxiv.org/abs/2408.09097v1
Date: Sat, 17 Aug 2024 04:55:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 22:37:12.407351
Title: Depth-guided Texture Diffusion for Image Semantic Segmentation
Title（参考訳）: 画像セマンティックセグメンテーションのための深さ誘導型集合組織拡散
Authors: Wei Sun, Yuan Li, Qixiang Ye, Jianbin Jiao, Yanzhao Zhou,
Abstract要約: 本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
参考スコア（独自算出の注目度）: 47.46257473475867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Depth information provides valuable insights into the 3D structure especially the outline of objects, which can be utilized to improve the semantic segmentation tasks. However, a naive fusion of depth information can disrupt feature and compromise accuracy due to the modality gap between the depth and the vision. In this work, we introduce a Depth-guided Texture Diffusion approach that effectively tackles the outlined challenge. Our method extracts low-level features from edges and textures to create a texture image. This image is then selectively diffused across the depth map, enhancing structural information vital for precisely extracting object outlines. By integrating this enriched depth map with the original RGB image into a joint feature embedding, our method effectively bridges the disparity between the depth map and the image, enabling more accurate semantic segmentation. We conduct comprehensive experiments across diverse, commonly-used datasets spanning a wide range of semantic segmentation tasks, including Camouflaged Object Detection (COD), Salient Object Detection (SOD), and indoor semantic segmentation. With source-free estimated depth or depth captured by depth cameras, our method consistently outperforms existing baselines and achieves new state-of-theart results, demonstrating the effectiveness of our Depth-guided Texture Diffusion for image semantic segmentation.
Abstract（参考訳）: 深度情報は3D構造、特にオブジェクトの輪郭に関する貴重な洞察を与え、セマンティックセグメンテーションタスクを改善するために利用することができる。しかし、奥行き情報の統合は、奥行きと視界のずれによる特徴や妥協の精度を損なう可能性がある。そこで本研究では,Depth-Guided Texture Diffusionアプローチを導入し,その課題を効果的に解決する。本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。この画像は深度マップに選択的に拡散され、オブジェクトの輪郭を正確に抽出するための構造情報を強化する。この拡張された深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより、深度マップと画像との格差を効果的に橋渡しし、より正確なセマンティックセグメンテーションを可能にする。我々は、カモフラージュオブジェクト検出(COD)、サルエントオブジェクト検出(SOD)、屋内セマンティックセマンティックセマンティックセマンティクスなど、幅広いセマンティックセマンティクスタスクにまたがる、多種多様な一般的なデータセットにわたる包括的な実験を行う。画像セグメンテーションにおけるDepth-Guided Texture Diffusionの有効性を実証し,Depth-Guided Texture Diffusionの有効性を示す。

関連論文リスト

DepthSeg: Depth prompting in remote sensing semantic segmentation [16.93010831616395]
本稿では,2次元リモートセマンティックセマンティックセグメンテーションフレームワーク(DepthSeg)について述べる。 2Dリモートセンシング画像から深度や高度を自動的にモデル化し、セマンティックセグメンテーションフレームワークに統合する。 LiuZhouデータセットの実験は、土地被覆マッピングタスクにおけるDepthSegフレームワークの利点を検証する。
論文参考訳（メタデータ） (2025-06-17T10:27:59Z)
Detail-aware multi-view stereo network for depth estimation [4.8203572077041335]
粗大なフレームワークを用いた細部対応多視点ステレオネットワーク(DA-MVSNet)を提案する。粗い段階で隠された幾何学的深さの手がかりを用いて、幾何学的構造関係を維持する。 DTU と Tanks & Temples のデータセットを用いた実験により,本手法が競争力を発揮することを示す。
論文参考訳（メタデータ） (2025-03-31T03:23:39Z)
DepGAN: Leveraging Depth Maps for Handling Occlusions and Transparency in Image Composition [7.693732944239458]
DepGANは、デプスマップとアルファチャンネルを利用して、不正確なオクルージョンを正すジェネレーティブ・アドバイサル・ネットワークである。我々のネットワークの中心にはDepth Aware Lossと呼ばれる新しいロス関数があり、ピクセルのワイド深さ差を定量化している。我々は不透明データを利用してネットワークの学習プロセスを強化し、透明で半透明なオブジェクトを含む構成を効果的に管理する。
論文参考訳（メタデータ） (2024-07-16T16:18:40Z)
Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文参考訳（メタデータ） (2024-02-14T04:07:44Z)
RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth Completion [31.70022495622075]
画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
論文参考訳（メタデータ） (2023-09-01T09:11:20Z)
Understanding Depth Map Progressively: Adaptive Distance Interval Separation for Monocular 3d Object Detection [38.96129204108353]
いくつかの単分子3D検出技術は、深度推定タスクからの補助深度マップに依存している。本稿では,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T13:32:53Z)
Joint Learning of Salient Object Detection, Depth Estimation and Contour Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文参考訳（メタデータ） (2022-03-09T17:20:18Z)
S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文参考訳（メタデータ） (2021-04-02T03:55:41Z)
Learning Depth via Leveraging Semantics: Self-supervised Monocular Depth Estimation with Both Implicit and Explicit Semantic Guidance [34.62415122883441]
シーン認識深度推定のための暗黙的意味特徴と深度特徴とを一致させるセマンティック認識空間特徴アライメント方式を提案する。また,推定深度マップを実シーンの文脈特性と整合性に明示的に制約する意味誘導型ランキング損失を提案する。複雑なシーンや多様なセマンティックカテゴリで一貫して優れた、高品質な深度マップを作成します。
論文参考訳（メタデータ） (2021-02-11T14:29:51Z)
Deep Texture-Aware Features for Camouflaged Object Detection [69.84122372541506]
本稿では, テクスチャ認識モジュールを定式化し, 深層畳み込みニューラルネットワークにおけるテクスチャ認識の特徴を学習する。我々は,キャモフラージュされた物体検出のためのベンチマークデータセット上で,定性的かつ定量的にネットワークを評価した。
論文参考訳（メタデータ） (2021-02-05T04:38:32Z)
Semantic-Guided Representation Enhancement for Self-supervised Monocular Trained Depth Estimation [39.845944724079814]
自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。局所的および大域的な深度特徴表現を促進する意味誘導深度表現拡張法を提案する。
論文参考訳（メタデータ） (2020-12-15T02:24:57Z)
Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文参考訳（メタデータ） (2020-01-14T20:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。