論文の概要: TIP: Text-Driven Image Processing with Semantic and Restoration
Instructions
- arxiv url: http://arxiv.org/abs/2312.11595v1
- Date: Mon, 18 Dec 2023 17:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 18:07:52.351976
- Title: TIP: Text-Driven Image Processing with Semantic and Restoration
Instructions
- Title(参考訳): TIP:セマンティックとリカバリの指導によるテキスト駆動画像処理
- Authors: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman
Milanfar, Qifeng Chen, Hossein Talebi
- Abstract要約: TIPは、自然言語をユーザフレンドリーなインターフェースとして活用し、画像復元プロセスを制御する、テキスト駆動の画像処理フレームワークである。
生成前の再スケールを学習することで既存のControlNetアーキテクチャを拡張できる新しい融合機構を導入する。
本実験は,TIPの回復性能を芸術的状況と比較し,テキストによる回復効果の制御の柔軟性を提供するとともに,TIPの回復性能を向上することを示した。
- 参考スコア(独自算出の注目度): 69.58439476358595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven diffusion models have become increasingly popular for various
image editing tasks, including inpainting, stylization, and object replacement.
However, it still remains an open research problem to adopt this
language-vision paradigm for more fine-level image processing tasks, such as
denoising, super-resolution, deblurring, and compression artifact removal. In
this paper, we develop TIP, a Text-driven Image Processing framework that
leverages natural language as a user-friendly interface to control the image
restoration process. We consider the capacity of text information in two
dimensions. First, we use content-related prompts to enhance the semantic
alignment, effectively alleviating identity ambiguity in the restoration
outcomes. Second, our approach is the first framework that supports fine-level
instruction through language-based quantitative specification of the
restoration strength, without the need for explicit task-specific design. In
addition, we introduce a novel fusion mechanism that augments the existing
ControlNet architecture by learning to rescale the generative prior, thereby
achieving better restoration fidelity. Our extensive experiments demonstrate
the superior restoration performance of TIP compared to the state of the arts,
alongside offering the flexibility of text-based control over the restoration
effects.
- Abstract(参考訳): テキスト駆動拡散モデルは、インペインティング、スタイライゼーション、オブジェクト置換など、様々な画像編集タスクで人気が高まっている。
しかし、この言語ビジョンパラダイムを、デノイジング、スーパーレゾリューション、デブラリング、圧縮アーティファクトの除去など、より詳細な画像処理タスクに採用することは、いまだに未解決の課題である。
本稿では、自然言語をユーザフレンドリーなインタフェースとして活用し、画像復元プロセスを制御するテキスト駆動画像処理フレームワークTIPを開発する。
テキスト情報の容量を2次元で検討する。
まず,コンテンツ関連プロンプトを用いて意味的アライメントを強化し,復元結果におけるアイデンティティの曖昧さを効果的に緩和する。
第2に,我々のアプローチは,明示的なタスク特化設計を必要とせず,言語に基づく復元強度の定量化を通じて,細部レベルの命令をサポートする最初のフレームワークである。
さらに,既存のコントロールネットアーキテクチャを改良し,生成元の再スケールを学習し,復元性の向上を図る新しい融合機構を提案する。
大規模な実験により,TIPの復元性能は芸術的状況と比較して優れており,また,復元効果に対するテキスト制御の柔軟性も示された。
関連論文リスト
- MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。
モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文 参考訳(メタデータ) (2024-01-24T17:58:07Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。
本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。
これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文 参考訳(メタデータ) (2023-12-08T13:36:01Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - All-in-one Multi-degradation Image Restoration Network via Hierarchical
Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。
AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。
この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文 参考訳(メタデータ) (2023-08-06T04:51:41Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。