論文の概要: Text-guided Explorable Image Super-resolution
- arxiv url: http://arxiv.org/abs/2403.01124v1
- Date: Sat, 2 Mar 2024 08:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:07:23.165139
- Title: Text-guided Explorable Image Super-resolution
- Title(参考訳): テキスト誘導探索可能な超高解像度画像
- Authors: Kanchana Vaishnavi Gandikota, Paramanand Chandramouli
- Abstract要約: ゼロショットテキスト誘導超解像に対する2つのアプローチを提案する。
提案手法はテキストプロンプトによって提供される意味的意味に合致する多様な解をもたらすことを示す。
- 参考スコア(独自算出の注目度): 14.83045604603449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the problem of zero-shot text-guided exploration
of the solutions to open-domain image super-resolution. Our goal is to allow
users to explore diverse, semantically accurate reconstructions that preserve
data consistency with the low-resolution inputs for different large
downsampling factors without explicitly training for these specific
degradations. We propose two approaches for zero-shot text-guided
super-resolution - i) modifying the generative process of text-to-image
\textit{T2I} diffusion models to promote consistency with low-resolution
inputs, and ii) incorporating language guidance into zero-shot diffusion-based
restoration methods. We show that the proposed approaches result in diverse
solutions that match the semantic meaning provided by the text prompt while
preserving data consistency with the degraded inputs. We evaluate the proposed
baselines for the task of extreme super-resolution and demonstrate advantages
in terms of restoration quality, diversity, and explorability of solutions.
- Abstract(参考訳): 本稿では,オープンドメイン画像の超解像に対するゼロショットテキスト誘導探索の問題を紹介する。
我々のゴールは、ユーザがこれらの特定の劣化を明示的にトレーニングすることなく、様々な大きなダウンサンプリング要因に対する低解像度の入力とデータ一貫性を維持する多様な意味論的に正確な再構築を探索できるようにすることです。
ゼロショットテキスト誘導超解像のための2つのアプローチを提案する。
一 低解像度入力との一貫性を促進するために、テキストから画像への拡散モデルの生成過程を変更すること。
二 ゼロショット拡散に基づく復元方法に言語指導を取り入れること。
提案手法は,テキストプロンプトによって提供された意味的意味に適合し,劣化した入力とデータの一貫性を保ちながら多様な解が得られることを示す。
超高分解能の課題に対する提案したベースラインを評価し,ソリューションの回復品質,多様性,探索可能性の面でのメリットを実証する。
関連論文リスト
- DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。