論文の概要: Rethinking Super-Resolution as Text-Guided Details Generation
- arxiv url: http://arxiv.org/abs/2207.06604v1
- Date: Thu, 14 Jul 2022 01:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 05:43:53.023609
- Title: Rethinking Super-Resolution as Text-Guided Details Generation
- Title(参考訳): 超解像をテキストガイドディテール生成として再考する
- Authors: Chenxi Ma, Bo Yan, Qing Lin, Weimin Tan, Siming Chen
- Abstract要約: テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
- 参考スコア(独自算出の注目度): 21.695227836312835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have greatly promoted the performance of single image
super-resolution (SISR). Conventional methods still resort to restoring the
single high-resolution (HR) solution only based on the input of image modality.
However, the image-level information is insufficient to predict adequate
details and photo-realistic visual quality facing large upscaling factors (x8,
x16). In this paper, we propose a new perspective that regards the SISR as a
semantic image detail enhancement problem to generate semantically reasonable
HR image that are faithful to the ground truth. To enhance the semantic
accuracy and the visual quality of the reconstructed image, we explore the
multi-modal fusion learning in SISR by proposing a Text-Guided Super-Resolution
(TGSR) framework, which can effectively utilize the information from the text
and image modalities. Different from existing methods, the proposed TGSR could
generate HR image details that match the text descriptions through a
coarse-to-fine process. Extensive experiments and ablation studies demonstrate
the effect of the TGSR, which exploits the text reference to recover realistic
images.
- Abstract(参考訳): ディープニューラルネットワークはシングルイメージスーパーレゾリューション(sisr)の性能を大きく向上させた。
従来の手法では、画像モダリティの入力のみに基づいて単一の高分解能(hr)ソリューションを復元する。
しかし、画像レベルの情報は、大きなアップスケーリング要因(x8,x16)に直面した適切な詳細と写実的な視覚的品質を予測するには不十分である。
本稿では,SISRを意味的画像詳細強調問題とみなして,真理に忠実な意味論的に合理的なHR画像を生成する新しい視点を提案する。
再構成画像の意味的精度と視覚的品質を向上させるため,テキストガイド型超解法(TGSR)フレームワークを提案し,テキストと画像のモダリティからの情報を有効に活用することで,SISRにおけるマルチモーダル融合学習を探索する。
既存の方法とは異なり、提案したTGSRは粗いプロセスを通じてテキスト記述と一致するHR画像の詳細を生成することができる。
大規模な実験とアブレーション研究は、テキスト参照を利用して現実的なイメージを復元するTGSRの効果を示す。
関連論文リスト
- Identity-Preserving Knowledge Distillation for Low-resolution Face
Recognition [13.334500258498798]
低解像度の顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能(LR)画像の低周波成分に蓄積される識別情報にネットワークを集中させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Learning Structral coherence Via Generative Adversarial Network for
Single Image Super-Resolution [13.803141755183827]
近年,GAN(Generative Adversarial Network)に基づくSISR法により,全体の現実的SR画像が得られた。
SRプロセスにおける高分解能勾配図の復元により構造情報を保存するため, 発電機に勾配分岐を導入する。
さらに、U-netベースの判別器を用いて、画像全体と画素ごとの詳細な認証の両方について検討する。
論文 参考訳(メタデータ) (2021-01-25T15:26:23Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。