論文の概要: High-Precision Dichotomous Image Segmentation via Depth Integrity-Prior and Fine-Grained Patch Strategy
- arxiv url: http://arxiv.org/abs/2503.06100v4
- Date: Sun, 28 Sep 2025 08:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.207103
- Title: High-Precision Dichotomous Image Segmentation via Depth Integrity-Prior and Fine-Grained Patch Strategy
- Title(参考訳): 奥行き積分と細粒度パッチ戦略による高精度二面体画像分割
- Authors: Xianjie Liu, Keren Fu, Qijun Zhao,
- Abstract要約: 高精細度画像から細粒度オブジェクトを抽出する作業として,DIS(High-precision Dichotomous Image segmentation)がある。
既存の方法はジレンマに直面し、非拡散法は効率的に機能するが、弱い意味論による誤検出や誤検出に悩まされる。
単眼深度推定モデルから擬似深度情報を得ると,本質的な意味理解が得られる。
- 参考スコア(独自算出の注目度): 23.431898388115044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-precision dichotomous image segmentation (DIS) is a task of extracting fine-grained objects from high-resolution images. Existing methods face a dilemma: non-diffusion methods work efficiently but suffer from false or missed detections due to weak semantics and less robust spatial priors; diffusion methods, using strong generative priors, have high accuracy but encounter high computational burdens. As a solution, we find pseudo depth information from monocular depth estimation models can provide essential semantic understanding that quickly reveals spatial differences across target objects and backgrounds. Inspired by this phenomenon, we discover a novel insight we term the depth integrity-prior: in pseudo depth maps, foreground objects consistently convey stable depth values with much lower variances than chaotic background patterns. To exploit such a prior, we propose a Prior of Depth Fusion Network (PDFNet). Specifically, our network establishes multimodal interactive modeling to achieve depth-guided structural perception by deeply fusing RGB and pseudo depth features. We further introduce a novel depth integrity-prior loss to explicitly enforce depth consistency in segmentation results. Additionally, we design a fine-grained perception enhancement module with adaptive patch selection to perform boundary-sensitive detail refinement. Notably, PDFNet achieves state-of-the-art performance with only 94M parameters (<11% of those diffusion-based models), outperforming all non-diffusion methods and surpassing some diffusion methods. Code is provided in the supplementary materials.
- Abstract(参考訳): 高精細度画像から細粒度オブジェクトを抽出する作業として,DIS(High-precision Dichotomous Image segmentation)がある。
既存の拡散法はジレンマに直面し、非拡散法は効率よく機能するが、弱い意味論とより堅牢な空間先行による誤検出や誤検出に悩まされる。
解法として,単眼深度推定モデルから得られた擬似深度情報により,対象対象物と背景間の空間的差異を素早く明らかにする本質的な意味理解が得られる。
擬似深度マップでは、前景の物体はカオス的背景パターンよりもはるかに低いばらつきで安定な深度値を一貫して伝達する。
このような先入観を活かすために,我々は,Depth Fusion Network (PDFNet) の事前提案を行う。
具体的には,RGBと擬似深度特徴を深く融合させることにより,深度誘導構造知覚を実現するためのマルチモーダル対話モデルを構築した。
さらに,セグメンテーション結果の深度整合性を明示するために,新しい深度整合性優先損失を導入する。
さらに,アダプティブパッチ選択による微粒化知覚強調モジュールを設計し,境界感応性の詳細改善を行う。
特に、PDFNetは94Mパラメータしか持たない最先端のパフォーマンスを達成し(これらの拡散ベースモデルの11%)、非拡散法を上回り、拡散法を超越している。
コードは補充材料で提供される。
関連論文リスト
- Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - DepthLab: From Partial to Complete [80.58276388743306]
不足する値は、幅広いアプリケーションにわたる深度データにとって共通の課題である。
この作業は、イメージ拡散プリエントを利用した基礎深度塗装モデルであるDepthLabと、このギャップを埋めるものだ。
提案手法は,3Dシーンのインペイント,テキストから3Dシーン生成,DUST3Rによるスパースビュー再構成,LiDAR深度補完など,様々なダウンストリームタスクにおいて有用であることを示す。
論文 参考訳(メタデータ) (2024-12-24T04:16:38Z) - Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution [55.9977636042469]
ビット深度圧縮は、微妙な変化のある領域で均一な深度表現を生成し、詳細情報の回復を妨げる。
密集したランダムノイズは、シーンのグローバルな幾何学的構造を推定する精度を低下させる。
圧縮深度マップ超解像のための新しいフレームワークGDNetを提案する。
論文 参考訳(メタデータ) (2024-11-05T16:37:30Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。
本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。
この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文 参考訳(メタデータ) (2024-08-17T04:55:03Z) - The Devil is in the Edges: Monocular Depth Estimation with Edge-aware Consistency Fusion [30.03608191629917]
本稿では,高品質な単分子深度を鮮明なエッジで推定し,単一のRGB画像から全体構造を検証し,新しい単分子深度推定手法 ECFNet を提案する。
我々は,MDEネットワークのエッジ深度推定に影響を及ぼす重要な要因について徹底的な調査を行い,エッジ情報自体が深度予測において重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-03-30T13:58:19Z) - Scene Prior Filtering for Depth Super-Resolution [97.30137398361823]
テクスチャ干渉とエッジ不正確性を緩和するScene Prior Filtering Network(SPFNet)を導入する。
我々のSPFNetは、実データと合成データの両方で広範囲に評価され、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-21T15:35:59Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Defocus Blur Detection via Depth Distillation [64.78779830554731]
初めてDBDに深度情報を導入します。
より詳しくは, 地底の真理と, 十分に訓練された深度推定ネットワークから抽出した深度から, デフォーカスのぼかしを学習する。
我々の手法は、2つの一般的なデータセット上で11の最先端の手法より優れています。
論文 参考訳(メタデータ) (2020-07-16T04:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。