論文の概要: TextIR: A Simple Framework for Text-based Editable Image Restoration
- arxiv url: http://arxiv.org/abs/2302.14736v1
- Date: Tue, 28 Feb 2023 16:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:30:42.516104
- Title: TextIR: A Simple Framework for Text-based Editable Image Restoration
- Title(参考訳): TextIR: テキストベースの編集可能な画像復元のためのシンプルなフレームワーク
- Authors: Yunpeng Bai, Cairong Wang, Shuzhao Xie, Chao Dong, Chun Yuan, Zhi Wang
- Abstract要約: テキスト記述による劣化画像の復元過程をユーザが制御できる効果的なフレームワークを設計する。
我々のフレームワークは、画像のインペイント、画像の超解像、画像のカラー化など、様々な画像復元作業に利用できる。
- 参考スコア(独自算出の注目度): 24.6473662631277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing image restoration methods use neural networks to learn strong
image-level priors from huge data to estimate the lost information. However,
these works still struggle in cases when images have severe information
deficits. Introducing external priors or using reference images to provide
information also have limitations in the application domain. In contrast, text
input is more readily available and provides information with higher
flexibility. In this work, we design an effective framework that allows the
user to control the restoration process of degraded images with text
descriptions. We use the text-image feature compatibility of the CLIP to
alleviate the difficulty of fusing text and image features. Our framework can
be used for various image restoration tasks, including image inpainting, image
super-resolution, and image colorization. Extensive experiments demonstrate the
effectiveness of our method.
- Abstract(参考訳): 既存の画像復元手法のほとんどは、巨大なデータから強い画像レベルの優先順位を学習するためにニューラルネットワークを使用し、失われた情報を推定する。
しかし、画像が深刻な情報不足を抱えている場合、これらの作業は依然として困難である。
外部プリエントの導入や情報提供のためのリファレンスイメージの使用は、アプリケーションドメインにも制限がある。
対照的に、テキスト入力はより容易に利用でき、柔軟性の高い情報を提供する。
本研究では,テキスト記述による劣化画像の復元過程をユーザが制御できる効果的なフレームワークを設計した。
クリップのテキストと画像の互換性を利用して,テキストと画像の機能を融合することの難しさを緩和する。
本フレームワークは,画像インペイント,画像超解像,画像カラー化など,さまざまな画像復元作業に利用できる。
広範な実験により本手法の有効性が実証された。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Text-to-image Editing by Image Information Removal [19.464349486031566]
原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
論文 参考訳(メタデータ) (2023-05-27T14:48:05Z) - Extremely Low-light Image Enhancement with Scene Text Restoration [29.08094129045479]
シーンテキストを正確に復元する新しい画像強調フレームワークを提案する。
我々は,自己調整型アテンションマップ,エッジマップ,新たなテキスト検出損失を用いる。
提案手法は,画像復元,テキスト検出,テキストスポッティングにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-04-01T16:10:14Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - Remember What You have drawn: Semantic Image Manipulation with Memory [84.74585786082388]
本稿では,リアルでテキスト変換された画像を生成するメモリベースの画像操作ネットワーク(MIM-Net)を提案する。
頑健なメモリを学習するために,新しいランダム化メモリトレーニング損失を提案する。
4つの一般的なデータセットに対する実験は、既存のデータセットと比較して、我々の手法の優れた性能を示している。
論文 参考訳(メタデータ) (2021-07-27T03:41:59Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。