Fugu-MT 論文翻訳(概要): Improving Detail in Pluralistic Image Inpainting with Feature Dequantization

論文の概要: Improving Detail in Pluralistic Image Inpainting with Feature Dequantization

arxiv url: http://arxiv.org/abs/2412.01046v1
Date: Mon, 02 Dec 2024 02:06:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.35388
Title: Improving Detail in Pluralistic Image Inpainting with Feature Dequantization
Title（参考訳）: 特徴量化による複数画像の具現化における詳細化
Authors: Kyungri Park, Woohwan Jung,
Abstract要約: VQGANベースのモデルPUTは重要な課題に直面している。本稿では,FDM(Feature Dequantization Module)を提案する。
参考スコア（独自算出の注目度）: 1.5500145658862499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pluralistic Image Inpainting (PII) offers multiple plausible solutions for restoring missing parts of images and has been successfully applied to various applications including image editing and object removal. Recently, VQGAN-based methods have been proposed and have shown that they significantly improve the structural integrity in the generated images. Nevertheless, the state-of-the-art VQGAN-based model PUT faces a critical challenge: degradation of detail quality in output images due to feature quantization. Feature quantization restricts the latent space and causes information loss, which negatively affects the detail quality essential for image inpainting. To tackle the problem, we propose the FDM (Feature Dequantization Module) specifically designed to restore the detail quality of images by compensating for the information loss. Furthermore, we develop an efficient training method for FDM which drastically reduces training costs. We empirically demonstrate that our method significantly enhances the detail quality of the generated images with negligible training and inference overheads.
Abstract（参考訳）: PII(Pluralistic Image Inpainting)は、画像の欠落部分を復元するための複数の可視性ソリューションを提供し、画像編集やオブジェクト削除など様々なアプリケーションにうまく適用されている。近年、VQGANに基づく手法が提案され、生成した画像の構造的整合性を大幅に改善することが示されている。それでも、最先端のVQGANベースのモデルであるPUTは重要な課題に直面している。特徴量化は潜伏空間を制限し、画像の塗布に必要な細部品質に悪影響を及ぼす情報損失を引き起こす。この問題に対処するために,情報損失を補うことで画像の細部品質を復元するFDM(Feature Dequantization Module)を提案する。さらに, トレーニングコストを大幅に削減するFDMの効率的なトレーニング手法を開発した。実験により,提案手法は学習や推論のオーバーヘッドを無視して生成した画像の細部品質を著しく向上させることを示した。

関連論文リスト

Restoring Real-World Images with an Internal Detail Enhancement Diffusion Model [9.520471615470267]
古い写真や低解像度画像などの現実世界の劣化画像の復元は、大きな課題となる。最近のデータ駆動型アプローチは、高忠実度復元と、色付けに対するオブジェクトレベル制御の達成に苦慮している。実世界の劣化画像の高忠実性復元のための内部詳細保存拡散モデルを提案する。
論文参考訳（メタデータ） (2025-05-24T12:32:53Z)
Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion [77.08942160610478]
超高精細画像復元(UHD)は、高解像度のため、しばしば計算ボトルネックや情報損失に直面している。本稿では,より難解な劣化情報を潜時空間に符号化しながら,容易に復元可能な背景情報を破棄する制御付き微分遠絡型VAEを提案する。提案手法は,UHD画像復元の精度を向上し,UHD画像復元の6つの課題を1Mパラメータのみで実現し,VAEモデルにおける情報損失問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-03-17T02:55:18Z)
Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model [55.46927355649013]
本稿では,新しいマルチモーダル・リアル・ワールド・フェイス・リカバリ技術を紹介する。 MGFRは偽の顔の特徴とアイデンティティの生成を緩和することができる。 4800のアイデンティティにまたがる21,000以上の高解像度顔画像からなるReface-HQデータセットを提案する。
論文参考訳（メタデータ） (2024-10-05T13:46:56Z)
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文参考訳（メタデータ） (2024-07-04T05:01:10Z)
MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration [17.47612023350466]
マルチモーダルなインサイトを持つ拡散型復元法であるMRIRを提案する。テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。視覚レベルでは、主にピクセルレベルの制御に焦点を合わせ、Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。
論文参考訳（メタデータ） (2024-07-04T04:55:14Z)
DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文参考訳（メタデータ） (2024-05-30T12:32:35Z)
PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。多様な命令追跡データの欠如は、モデルの開発を妨げている。本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文参考訳（メタデータ） (2024-05-27T03:13:28Z)
Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。我々の手法は最先端技術と競争的に機能する。
論文参考訳（メタデータ） (2023-09-06T15:05:04Z)
Multi-Modality Deep Network for JPEG Artifacts Reduction [33.02405073842042]
テキスト誘導JPEGアーティファクト削減のためのマルチモーダル融合学習法を提案する。提案手法は,最先端の手法と比較して,より優れたデブロッキング結果が得られる。
論文参考訳（メタデータ） (2023-05-04T11:54:02Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文参考訳（メタデータ） (2020-05-12T09:55:53Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。