論文の概要: TIP: Text-Driven Image Processing with Semantic and Restoration
Instructions
- arxiv url: http://arxiv.org/abs/2312.11595v1
- Date: Mon, 18 Dec 2023 17:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 18:07:52.351976
- Title: TIP: Text-Driven Image Processing with Semantic and Restoration
Instructions
- Title(参考訳): TIP:セマンティックとリカバリの指導によるテキスト駆動画像処理
- Authors: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman
Milanfar, Qifeng Chen, Hossein Talebi
- Abstract要約: TIPは、自然言語をユーザフレンドリーなインターフェースとして活用し、画像復元プロセスを制御する、テキスト駆動の画像処理フレームワークである。
生成前の再スケールを学習することで既存のControlNetアーキテクチャを拡張できる新しい融合機構を導入する。
本実験は,TIPの回復性能を芸術的状況と比較し,テキストによる回復効果の制御の柔軟性を提供するとともに,TIPの回復性能を向上することを示した。
- 参考スコア(独自算出の注目度): 69.58439476358595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven diffusion models have become increasingly popular for various
image editing tasks, including inpainting, stylization, and object replacement.
However, it still remains an open research problem to adopt this
language-vision paradigm for more fine-level image processing tasks, such as
denoising, super-resolution, deblurring, and compression artifact removal. In
this paper, we develop TIP, a Text-driven Image Processing framework that
leverages natural language as a user-friendly interface to control the image
restoration process. We consider the capacity of text information in two
dimensions. First, we use content-related prompts to enhance the semantic
alignment, effectively alleviating identity ambiguity in the restoration
outcomes. Second, our approach is the first framework that supports fine-level
instruction through language-based quantitative specification of the
restoration strength, without the need for explicit task-specific design. In
addition, we introduce a novel fusion mechanism that augments the existing
ControlNet architecture by learning to rescale the generative prior, thereby
achieving better restoration fidelity. Our extensive experiments demonstrate
the superior restoration performance of TIP compared to the state of the arts,
alongside offering the flexibility of text-based control over the restoration
effects.
- Abstract(参考訳): テキスト駆動拡散モデルは、インペインティング、スタイライゼーション、オブジェクト置換など、様々な画像編集タスクで人気が高まっている。
しかし、この言語ビジョンパラダイムを、デノイジング、スーパーレゾリューション、デブラリング、圧縮アーティファクトの除去など、より詳細な画像処理タスクに採用することは、いまだに未解決の課題である。
本稿では、自然言語をユーザフレンドリーなインタフェースとして活用し、画像復元プロセスを制御するテキスト駆動画像処理フレームワークTIPを開発する。
テキスト情報の容量を2次元で検討する。
まず,コンテンツ関連プロンプトを用いて意味的アライメントを強化し,復元結果におけるアイデンティティの曖昧さを効果的に緩和する。
第2に,我々のアプローチは,明示的なタスク特化設計を必要とせず,言語に基づく復元強度の定量化を通じて,細部レベルの命令をサポートする最初のフレームワークである。
さらに,既存のコントロールネットアーキテクチャを改良し,生成元の再スケールを学習し,復元性の向上を図る新しい融合機構を提案する。
大規模な実験により,TIPの復元性能は芸術的状況と比較して優れており,また,復元効果に対するテキスト制御の柔軟性も示された。
関連論文リスト
- InstructGIE: Towards Generalizable Image Editing [36.90841880248305]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z) - TextIR: A Simple Framework for Text-based Editable Image Restoration [24.6473662631277]
テキスト記述による劣化画像の復元過程をユーザが制御できる効果的なフレームワークを設計する。
我々のフレームワークは、画像のインペイント、画像の超解像、画像のカラー化など、様々な画像復元作業に利用できる。
論文 参考訳(メタデータ) (2023-02-28T16:39:36Z) - Improving Scene Text Image Super-resolution via Dual Prior Modulation
Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-21T02:59:37Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。