論文の概要: TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting
- arxiv url: http://arxiv.org/abs/2306.11528v3
- Date: Thu, 03 Oct 2024 14:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:45.753541
- Title: TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting
- Title(参考訳): TransRef: 参照ガイド画像の描画のためのマルチスケール参照埋め込み変換器
- Authors: Taorong Liu, Liang Liao, Delin Chen, Jing Xiao, Zheng Wang, Chia-Wen Lin, Shin'ichi Satoh,
- Abstract要約: 本稿では,トランスレフと呼ばれるトランスフォーマーベースのエンコーダデコーダネットワークを提案する。
参照特徴を正確に活用するために、参照パッチアライメント(Ref-PA)モジュールを提案し、参照画像と破損画像のパッチ特徴を整列させる。
入力画像と参照画像の50Kペアを含む,公開可能なベンチマークデータセットを構築した。
- 参考スコア(独自算出の注目度): 45.31389892299325
- License:
- Abstract: Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.
- Abstract(参考訳): 画像の複雑なセマンティックな環境や、腐敗した画像の多様な穴のパターンを補完する画像インペインティングは、大規模データに基づいて訓練された最先端の学習ベースのインペインティング手法においても困難である。
破損した画像の同一シーンをキャプチャする参照画像は、破損した画像の穴に先立って類似したテクスチャや構造を共有するので、破損した画像を完成させるための情報的ガイダンスを提供する。
そこで本研究では,TransRefというトランスフォーマーベースのエンコーダデコーダネットワークを提案する。
具体的には、参照埋め込み手順により段階的に誘導を行い、その後、参照特徴が整列され、劣化した画像の特徴と融合する。
参照特徴を正確に活用するために、参照パッチアライメント(Ref-PA)モジュールが参照画像のパッチ特徴を整列し、それらのスタイルの違いを調和させるとともに、参照パッチトランスフォーマー(Ref-PT)モジュールが埋め込み参照特徴を洗練するために提案される。
さらに,参照誘導画像復元タスクの研究を容易にするために,50万対の入力画像と参照画像を含む公開アクセス型ベンチマークデータセットを構築した。
定量的および定性的な評価は, 複素孔の完成における最先端手法に対する基準情報の有効性と提案手法の有効性を示すものである。
コードとデータセットはhttps://github.com/Cameltr/TransRefでアクセスすることができる。
関連論文リスト
- ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Mask Reference Image Quality Assessment [8.087355843192109]
Mask Reference IQA (MR-IQA) は、歪んだ画像の特定のパッチを隠蔽し、参照画像パッチで欠落したパッチを補う方法である。
提案手法は,ベンチマークKADID-10k, LIVE, CSIQデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T13:52:38Z) - Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion [74.30861504619851]
本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-05T16:24:09Z) - Reference-Guided Texture and Structure Inference for Image Inpainting [25.775006005766222]
インペインティングのための10K対の入力画像と参照画像を含むベンチマークデータセットを構築した。
入力画像のテクスチャや構造的特徴を推測するために,エンコーダ・デコーダ構造を採用する。
さらに、参照画像の誘導により、入力画像のこれらの特徴を洗練するように、特徴アライメントモジュールを設計する。
論文 参考訳(メタデータ) (2022-07-29T06:26:03Z) - DocEnTr: An End-to-End Document Image Enhancement Transformer [13.108797370734893]
文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。
本稿では,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-01-25T11:45:35Z) - TransFill: Reference-guided Image Inpainting by Merging Multiple Color
and Spatial Transformations [35.9576572490994]
本稿では,対象画像とシーン内容を共有する別のソース画像を参照して,穴を埋めるマルチホモグラフィ変換核融合法であるtransfillを提案する。
色を調整し、各ホモグラフィー歪んだソースイメージにピクセルレベルのワーピングを適用して、ターゲットとの整合性を高めることを学びます。
本手法は,多種多様なベースラインと色差にまたがる画像対の最先端性能を実現し,ユーザ提供画像対に一般化する。
論文 参考訳(メタデータ) (2021-03-29T22:45:07Z) - RetrieveGAN: Image Synthesis via Differentiable Patch Retrieval [76.87013602243053]
本稿では,シーン記述からイメージを抽出したパッチを参照として合成する,識別可能な検索モジュールを提案する。
提案手法が現実的かつ多様な画像を生成可能であることを示すため,広範に定量的かつ定性的な実験を行った。
論文 参考訳(メタデータ) (2020-07-16T17:59:04Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。