論文の概要: Improving Detail in Pluralistic Image Inpainting with Feature Dequantization
- arxiv url: http://arxiv.org/abs/2412.01046v1
- Date: Mon, 02 Dec 2024 02:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:30.583315
- Title: Improving Detail in Pluralistic Image Inpainting with Feature Dequantization
- Title(参考訳): 特徴量化による複数画像の具現化における詳細化
- Authors: Kyungri Park, Woohwan Jung,
- Abstract要約: VQGANベースのモデルPUTは重要な課題に直面している。
本稿では,FDM(Feature Dequantization Module)を提案する。
- 参考スコア(独自算出の注目度): 1.5500145658862499
- License:
- Abstract: Pluralistic Image Inpainting (PII) offers multiple plausible solutions for restoring missing parts of images and has been successfully applied to various applications including image editing and object removal. Recently, VQGAN-based methods have been proposed and have shown that they significantly improve the structural integrity in the generated images. Nevertheless, the state-of-the-art VQGAN-based model PUT faces a critical challenge: degradation of detail quality in output images due to feature quantization. Feature quantization restricts the latent space and causes information loss, which negatively affects the detail quality essential for image inpainting. To tackle the problem, we propose the FDM (Feature Dequantization Module) specifically designed to restore the detail quality of images by compensating for the information loss. Furthermore, we develop an efficient training method for FDM which drastically reduces training costs. We empirically demonstrate that our method significantly enhances the detail quality of the generated images with negligible training and inference overheads.
- Abstract(参考訳): PII(Pluralistic Image Inpainting)は、画像の欠落部分を復元するための複数の可視性ソリューションを提供し、画像編集やオブジェクト削除など様々なアプリケーションにうまく適用されている。
近年、VQGANに基づく手法が提案され、生成した画像の構造的整合性を大幅に改善することが示されている。
それでも、最先端のVQGANベースのモデルであるPUTは重要な課題に直面している。
特徴量化は潜伏空間を制限し、画像の塗布に必要な細部品質に悪影響を及ぼす情報損失を引き起こす。
この問題に対処するために,情報損失を補うことで画像の細部品質を復元するFDM(Feature Dequantization Module)を提案する。
さらに, トレーニングコストを大幅に削減するFDMの効率的なトレーニング手法を開発した。
実験により,提案手法は学習や推論のオーバーヘッドを無視して生成した画像の細部品質を著しく向上させることを示した。
関連論文リスト
- Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model [55.46927355649013]
本稿では,新しいマルチモーダル・リアル・ワールド・フェイス・リカバリ技術を紹介する。
MGFRは偽の顔の特徴とアイデンティティの生成を緩和することができる。
5000のアイデンティティにまたがる23,000以上の高解像度の顔画像からなるReface-HQデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-05T13:46:56Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Joint Quality Assessment and Example-Guided Image Processing by Disentangling Picture Appearance from Content [30.939589712281684]
ディープラーニングは、スタイル/ドメイン転送、強化/復元、視覚的品質評価といった低レベルの画像処理タスクに影響を与えている。
我々はこの観察を利用して、入力をコンテンツや外観特徴に分解する新しい非絡み合い表現学習法を開発した。
本研究では,DisQUEが品質予測タスクや歪みタイプにまたがって精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-04-20T23:02:57Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - Multi-Modality Deep Network for JPEG Artifacts Reduction [33.02405073842042]
テキスト誘導JPEGアーティファクト削減のためのマルチモーダル融合学習法を提案する。
提案手法は,最先端の手法と比較して,より優れたデブロッキング結果が得られる。
論文 参考訳(メタデータ) (2023-05-04T11:54:02Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。