論文の概要: Recovering Partially Corrupted Objects via Sketch-Guided Bidirectional Feature Interaction
- arxiv url: http://arxiv.org/abs/2503.07047v2
- Date: Thu, 31 Jul 2025 06:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.847498
- Title: Recovering Partially Corrupted Objects via Sketch-Guided Bidirectional Feature Interaction
- Title(参考訳): スケッチ誘導双方向特徴相互作用による部分的破損物体の復元
- Authors: Yongle Zhang, Yimin Liu, Yan Huang, Qiang Wu,
- Abstract要約: テキスト誘導拡散モデルはテキストプロンプトを通じて高レベルの意味指導を提供する。
これらはしばしば、部分的に破損した物体に正確なピクセルレベルの空間制御を欠いている。
本研究では,事前訓練された安定拡散モデルに基づくスケッチ誘導双方向特徴相互作用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.03488741913531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided diffusion models have achieved remarkable success in object inpainting by providing high-level semantic guidance through text prompts. However, they often lack precise pixel-level spatial control, especially in scenarios involving partially corrupted objects where critical uncorrupted cues remain. To overcome this limitation, sketch-guided methods have been introduced, using either indirect gradient modulation or direct sketch injection to improve structural control. Yet, existing approaches typically establish a one-way mapping from the sketch to the masked regions only, neglecting the contextual information from unmasked object areas. This leads to a disconnection between the sketch and the uncorrupted content, thereby causing sketch-guided inconsistency and structural mismatch. To tackle this challenge, we propose a sketch-guided bidirectional feature interaction framework built upon a pretrained Stable Diffusion model. Our bidirectional interaction features two complementary directions, context-to-sketch and sketch-to-inpainting, that enable fine-grained spatial control for partially corrupted object inpainting. In the context-to-sketch direction, multi-scale latents from uncorrupted object regions are propagated to the sketch branch to generate a visual mask that adapts the sketch features to the visible context and denoising progress. In the sketch-to-inpainting direction, a sketch-conditional affine transformation modulates the influence of sketch guidance based on the learned visual mask, ensuring consistency with uncorrupted object content. This interaction is applied at multiple scales within the encoder of the diffusion U-Net, enabling the model to restore object structures with enhanced spatial fidelity. Extensive experiments on two newly constructed benchmark datasets demonstrate that our approach outperforms state-of-the-art methods.
- Abstract(参考訳): テキスト誘導拡散モデルは、テキストプロンプトを通じて高レベルのセマンティックガイダンスを提供することにより、オブジェクトの塗装において顕著な成功を収めた。
しかし、しばしば正確なピクセルレベルの空間制御が欠如しており、特に重要な未破壊の手がかりが残っている部分的な破損物を含むシナリオにおいてである。
この制限を克服するために、間接勾配変調または直接スケッチ注入を用いて構造制御を改善するスケッチ誘導法が導入された。
しかし、既存のアプローチは通常、スケッチからマスクされた領域のみへの片道マッピングを確立し、マスキングされていない対象領域からのコンテキスト情報を無視する。
これにより、スケッチと破壊されていないコンテンツが切り離され、スケッチ誘導の不整合と構造的ミスマッチが発生する。
この課題に対処するために,事前訓練された安定拡散モデルに基づくスケッチ誘導双方向特徴相互作用フレームワークを提案する。
我々の双方向の相互作用は2つの相補的な方向、コンテキスト・ツー・スケッチとスケッチ・トゥ・インペインティングを特徴とし、部分的に劣化した物体のインペインティングに対してきめ細かい空間制御を可能にする。
コンテクスト・ツー・スケッチ方向では、故障していない対象領域から多スケールの潜伏剤をスケッチブランチに伝播させ、スケッチ特徴を可視的コンテキストに適応させ、進行を遅延させる視覚マスクを生成する。
スケッチ・トゥ・インポーティング方向において、スケッチ条件アフィン変換は、学習された視覚マスクに基づいてスケッチガイダンスの影響を変調し、不正な対象内容との整合性を確保する。
この相互作用は拡散U-Netのエンコーダ内の複数のスケールで適用され、空間的忠実度を向上したオブジェクト構造を復元することができる。
新たに構築された2つのベンチマークデータセットに対する大規模な実験は、我々のアプローチが最先端の手法より優れていることを示している。
関連論文リスト
- SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions [30.148969711689773]
本稿では, 単一画像深度推定タスクにおいて, ディストリビューションデータの挑戦によって生じる複雑さに対処する新しい手法を提案する。
我々は,包括的課題と関連する深度情報を用いて,新たなユーザ定義シーンを体系的に生成する。
これは、深度認識制御による最先端のテキスト・画像拡散モデルを活用することで実現される。
論文 参考訳(メタデータ) (2024-07-23T17:59:59Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。