Fugu-MT 論文翻訳(概要): Recovering Partially Corrupted Major Objects through Tri-modality Based Image Completion

論文の概要: Recovering Partially Corrupted Major Objects through Tri-modality Based Image Completion

arxiv url: http://arxiv.org/abs/2503.07047v1
Date: Mon, 10 Mar 2025 08:34:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.793154
Title: Recovering Partially Corrupted Major Objects through Tri-modality Based Image Completion
Title（参考訳）: 3モーダリティに基づく画像補完による部分的破壊された主要物体の復元
Authors: Yongle Zhang, Yimin Liu, Qiang Wu,
Abstract要約: 拡散モデルは画像補完タスクに広く採用されている。永続的な課題は、損傷した領域でオブジェクトが部分的にあいまいになったときに発生するが、残りの部分はバックグラウンドでまだ見える。そこで我々は,新しい視覚支援によるテキストベースの指導を補足する,カジュアルスケッチを提案する。このスケッチは重要な構造的手がかりを提供し、生成モデルは既存の背景とシームレスに統合されたオブジェクト構造を生成することができる。
参考スコア（独自算出の注目度）: 13.846868357952419
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have become widely adopted in image completion tasks, with text prompts commonly employed to ensure semantic coherence by providing high-level guidance. However, a persistent challenge arises when an object is partially obscured in the damaged region, yet its remaining parts are still visible in the background. While text prompts offer semantic direction, they often fail to precisely recover fine-grained structural details, such as the object's overall posture, ensuring alignment with the visible object information in the background. This limitation stems from the inability of text prompts to provide pixel-level specificity. To address this, we propose supplementing text-based guidance with a novel visual aid: a casual sketch, which can be roughly drawn by anyone based on visible object parts. This sketch supplies critical structural cues, enabling the generative model to produce an object structure that seamlessly integrates with the existing background. We introduce the Visual Sketch Self-Aware (VSSA) model, which integrates the casual sketch into each iterative step of the diffusion process, offering distinct advantages for partially corrupted scenarios. By blending sketch-derived features with those of the corrupted image, and leveraging text prompt guidance, the VSSA assists the diffusion model in generating images that preserve both the intended object semantics and structural consistency across the restored objects and original regions. To support this research, we created two datasets, CUB-sketch and MSCOCO-sketch, each combining images, sketches, and text. Extensive qualitative and quantitative experiments demonstrate that our approach outperforms several state-of-the-art methods.
Abstract（参考訳）: 拡散モデルは画像補完タスクにおいて広く採用され、高レベルのガイダンスを提供することで意味的一貫性を確保するためにテキストプロンプトが広く採用されている。しかし、損傷した領域で物体が部分的に見えなくなると、永続的な課題が生じる。テキストプロンプトはセマンティックな方向を提供するが、オブジェクト全体の姿勢や背景の見えるオブジェクト情報との整合性といった、きめ細かい構造的詳細を正確に回復することができないことが多い。この制限は、テキストがピクセルレベルの特異性を提供するよう促すことができないことに起因している。そこで本研究では,視覚的支援によるテキストベースの指導を補足する「カジュアルスケッチ」を提案する。このスケッチは重要な構造的手がかりを提供し、生成モデルは既存の背景とシームレスに統合されたオブジェクト構造を生成することができる。拡散プロセスの各反復ステップにカジュアルスケッチを組み込んだVisual Sketch Self-Aware (VSSA) モデルを導入する。スケッチから派生した特徴と劣化した画像とをブレンドし、テキストプロンプトガイダンスを活用することで、VSSAは、意図したオブジェクトの意味と、復元されたオブジェクトと元の領域をまたいだ構造的一貫性の両方を保持する画像を生成する拡散モデルを支援する。この研究を支援するために、CUB-sketchとMSCOCO-sketchという2つのデータセットを作成し、それぞれに画像、スケッチ、テキストを組み合わせた。大規模定性的および定量的実験により,本手法がいくつかの最先端手法より優れていることが示された。

関連論文リスト

SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文参考訳（メタデータ） (2025-01-27T13:07:51Z)
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。人間の評価によると、Add-itは80%以上のケースで好まれる。
論文参考訳（メタデータ） (2024-11-11T18:50:09Z)
Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions [30.148969711689773]
本稿では, 単一画像深度推定タスクにおいて, ディストリビューションデータの挑戦によって生じる複雑さに対処する新しい手法を提案する。我々は,包括的課題と関連する深度情報を用いて,新たなユーザ定義シーンを体系的に生成する。これは、深度認識制御による最先端のテキスト・画像拡散モデルを活用することで実現される。
論文参考訳（メタデータ） (2024-07-23T17:59:59Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。 textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-03-23T06:17:23Z)
Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文参考訳（メタデータ） (2021-04-29T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。