Fugu-MT 論文翻訳(概要): TIP: Text-Driven Image Processing with Semantic and Restoration Instructions

論文の概要: TIP: Text-Driven Image Processing with Semantic and Restoration Instructions

arxiv url: http://arxiv.org/abs/2312.11595v1
Date: Mon, 18 Dec 2023 17:02:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 18:07:52.351976
Title: TIP: Text-Driven Image Processing with Semantic and Restoration Instructions
Title（参考訳）: TIP:セマンティックとリカバリの指導によるテキスト駆動画像処理
Authors: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi
Abstract要約: TIPは、自然言語をユーザフレンドリーなインターフェースとして活用し、画像復元プロセスを制御する、テキスト駆動の画像処理フレームワークである。生成前の再スケールを学習することで既存のControlNetアーキテクチャを拡張できる新しい融合機構を導入する。本実験は,TIPの回復性能を芸術的状況と比較し,テキストによる回復効果の制御の柔軟性を提供するとともに,TIPの回復性能を向上することを示した。
参考スコア（独自算出の注目度）: 69.58439476358595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-driven diffusion models have become increasingly popular for various image editing tasks, including inpainting, stylization, and object replacement. However, it still remains an open research problem to adopt this language-vision paradigm for more fine-level image processing tasks, such as denoising, super-resolution, deblurring, and compression artifact removal. In this paper, we develop TIP, a Text-driven Image Processing framework that leverages natural language as a user-friendly interface to control the image restoration process. We consider the capacity of text information in two dimensions. First, we use content-related prompts to enhance the semantic alignment, effectively alleviating identity ambiguity in the restoration outcomes. Second, our approach is the first framework that supports fine-level instruction through language-based quantitative specification of the restoration strength, without the need for explicit task-specific design. In addition, we introduce a novel fusion mechanism that augments the existing ControlNet architecture by learning to rescale the generative prior, thereby achieving better restoration fidelity. Our extensive experiments demonstrate the superior restoration performance of TIP compared to the state of the arts, alongside offering the flexibility of text-based control over the restoration effects.
Abstract（参考訳）: テキスト駆動拡散モデルは、インペインティング、スタイライゼーション、オブジェクト置換など、様々な画像編集タスクで人気が高まっている。しかし、この言語ビジョンパラダイムを、デノイジング、スーパーレゾリューション、デブラリング、圧縮アーティファクトの除去など、より詳細な画像処理タスクに採用することは、いまだに未解決の課題である。本稿では、自然言語をユーザフレンドリーなインタフェースとして活用し、画像復元プロセスを制御するテキスト駆動画像処理フレームワークTIPを開発する。テキスト情報の容量を2次元で検討する。まず,コンテンツ関連プロンプトを用いて意味的アライメントを強化し,復元結果におけるアイデンティティの曖昧さを効果的に緩和する。第2に,我々のアプローチは,明示的なタスク特化設計を必要とせず,言語に基づく復元強度の定量化を通じて,細部レベルの命令をサポートする最初のフレームワークである。さらに,既存のコントロールネットアーキテクチャを改良し,生成元の再スケールを学習し,復元性の向上を図る新しい融合機構を提案する。大規模な実験により,TIPの復元性能は芸術的状況と比較して優れており,また,復元効果に対するテキスト制御の柔軟性も示された。

関連論文リスト

Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。 Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文参考訳（メタデータ） (2025-08-04T11:49:20Z)
Text-Aware Image Restoration with Diffusion Models [30.127247716169666]
Text-Aware Image Restoration (TAIR) は、視覚的内容とテキストの忠実性の同時回復を必要とする新しい復元作業である。この課題に対処するために,多種多様な複雑なテキストインスタンスを付加した100Kの高品質シーン画像の大規模ベンチマークであるSA-Textを提案する。本手法は最先端の復元手法を一貫して上回り,テキスト認識精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-06-11T17:59:46Z)
Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文参考訳（メタデータ） (2025-04-14T08:24:57Z)
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文参考訳（メタデータ） (2024-10-17T09:22:53Z)
Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文参考訳（メタデータ） (2024-07-04T05:01:10Z)
SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-07-04T04:55:14Z)
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文参考訳（メタデータ） (2024-01-24T17:58:07Z)
Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。 We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文参考訳（メタデータ） (2024-01-24T04:25:12Z)
Improving Image Restoration through Removing Degradations in Textual Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文参考訳（メタデータ） (2023-12-28T19:18:17Z)
Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文参考訳（メタデータ） (2023-12-08T13:36:01Z)
Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文参考訳（メタデータ） (2023-12-04T06:59:55Z)
All-in-one Multi-degradation Image Restoration Network via Hierarchical Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。 AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文参考訳（メタデータ） (2023-08-06T04:51:41Z)
Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。 SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-10T03:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。