論文の概要: High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity
- arxiv url: http://arxiv.org/abs/2410.10105v1
- Date: Mon, 14 Oct 2024 02:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:04:18.086716
- Title: High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity
- Title(参考訳): Probing Diffusion Capacityによる高精度ディコトモス画像分割
- Authors: Qian Yu, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, Bo Li, Lihe Zhang, Huchuan Lu,
- Abstract要約: 本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 69.32473738284374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of high-resolution (HR), fine-grained image segmentation, the primary challenge is balancing broad contextual awareness with the precision required for detailed object delineation, capturing intricate details and the finest edges of objects. Diffusion models, trained on vast datasets comprising billions of image-text pairs, such as SD V2.1, have revolutionized text-to-image synthesis by delivering exceptional quality, fine detail resolution, and strong contextual awareness, making them an attractive solution for high-resolution image segmentation. To this end, we propose DiffDIS, a diffusion-driven segmentation model that taps into the potential of the pre-trained U-Net within diffusion models, specifically designed for high-resolution, fine-grained object segmentation. By leveraging the robust generalization capabilities and rich, versatile image representation prior of the SD models, coupled with a task-specific stable one-step denoising approach, we significantly reduce the inference time while preserving high-fidelity, detailed generation. Additionally, we introduce an auxiliary edge generation task to not only enhance the preservation of fine details of the object boundaries, but reconcile the probabilistic nature of diffusion with the deterministic demands of segmentation. With these refined strategies in place, DiffDIS serves as a rapid object mask generation model, specifically optimized for generating detailed binary maps at high resolutions, while demonstrating impressive accuracy and swift processing. Experiments on the DIS5K dataset demonstrate the superiority of DiffDIS, achieving state-of-the-art results through a streamlined inference process. Our code will be made publicly available.
- Abstract(参考訳): 高分解能(HR)、きめ細かい画像のセグメンテーションの領域において、主な課題は、広義のコンテキスト認識と詳細なオブジェクトのデライン化に必要な精度のバランスを保ち、複雑な詳細とオブジェクトの最も細かいエッジを捉えることである。
SD V2.1のような数十億の画像テキストペアからなる膨大なデータセットに基づいて訓練された拡散モデルは、例外的な品質、細部分解能、強い文脈認識を提供することで、テキストと画像の合成に革命をもたらした。
そこで本研究では,DiffDISを提案する。DiffDISは拡散モデル内における事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルであり,特に高分解能できめ細かなオブジェクトセグメンテーションのために設計されている。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用し、タスク固有の安定な1ステップデノイング手法と組み合わせることで、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
さらに,対象境界の細部保存を向上するだけでなく,拡散の確率的性質をセグメンテーションの決定論的要求と整合させる補助エッジ生成タスクを導入する。
これらの改良された戦略により、DiffDISは高速なオブジェクトマスク生成モデルとして機能し、特に高解像度で詳細なバイナリマップを生成するために最適化され、印象的な精度と迅速な処理を示している。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
私たちのコードは公開されます。
関連論文リスト
- One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Deep Attentive Generative Adversarial Network for Photo-Realistic Image
De-Quantization [25.805568996596783]
減量子化は、高ビット深度画面に表示するための低ビット深度画像の視覚的品質を改善することができる。
本稿では,画像強度分解能の超解像を実現するためのDAGANアルゴリズムを提案する。
DenseResAttモジュールは、自己保持機構を備えた密集した残留ブロックで構成されている。
論文 参考訳(メタデータ) (2020-04-07T06:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。