論文の概要: PromptFix: You Prompt and We Fix the Photo
- arxiv url: http://arxiv.org/abs/2405.16785v2
- Date: Thu, 10 Oct 2024 16:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:26.444381
- Title: PromptFix: You Prompt and We Fix the Photo
- Title(参考訳): PromptFix:写真をプロンプトして修正する
- Authors: Yongsheng Yu, Ziyun Zeng, Hang Hua, Jianlong Fu, Jiebo Luo,
- Abstract要約: 言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
- 参考スコア(独自算出の注目度): 84.69812824355269
- License:
- Abstract: Diffusion models equipped with language models demonstrate excellent controllability in image generation tasks, allowing image processing to adhere to human instructions. However, the lack of diverse instruction-following data hampers the development of models that effectively recognize and execute user-customized instructions, particularly in low-level tasks. Moreover, the stochastic nature of the diffusion process leads to deficiencies in image generation or editing tasks that require the detailed preservation of the generated images. To address these limitations, we propose PromptFix, a comprehensive framework that enables diffusion models to follow human instructions to perform a wide variety of image-processing tasks. First, we construct a large-scale instruction-following dataset that covers comprehensive image-processing tasks, including low-level tasks, image editing, and object creation. Next, we propose a high-frequency guidance sampling method to explicitly control the denoising process and preserve high-frequency details in unprocessed areas. Finally, we design an auxiliary prompting adapter, utilizing Vision-Language Models (VLMs) to enhance text prompts and improve the model's task generalization. Experimental results show that PromptFix outperforms previous methods in various image-processing tasks. Our proposed model also achieves comparable inference efficiency with these baseline models and exhibits superior zero-shot capabilities in blind restoration and combination tasks. The dataset and code are available at https://www.yongshengyu.com/PromptFix-Page.
- Abstract(参考訳): 言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示し、画像処理が人間の指示に従うことができる。
しかし、多様な命令追跡データの欠如は、特に低レベルのタスクにおいて、ユーザカスタマイズ命令を効果的に認識し実行するモデルの開発を妨げている。
さらに、拡散過程の確率的性質は、生成した画像の詳細な保存を必要とする画像生成や編集タスクの欠如につながる。
これらの制約に対処するため,広範にわたる画像処理タスクを実行するために,拡散モデルによる人間の指示に従うことができる包括的フレームワークであるPromptFixを提案する。
まず、低レベルなタスク、画像編集、オブジェクト生成を含む包括的な画像処理タスクをカバーする大規模な命令追従データセットを構築する。
次に,非処理領域におけるdenoising処理を明示的に制御し,高周波の詳細を保存するための高周波ガイダンスサンプリング手法を提案する。
最後に,VLM(Vision-Language Models)を利用した補助的なプロンプトアダプタを設計し,テキストプロンプトを強化し,タスクの一般化を改善する。
実験の結果, PromptFix は様々な画像処理タスクにおいて, 従来の手法よりも優れていた。
提案モデルはまた,これらのベースラインモデルと同等の推論効率を実現し,ブラインド復元と組み合わせ作業において優れたゼロショット機能を示す。
データセットとコードはhttps://www.yongshengyu.com/PromptFix-Page.comで公開されている。
関連論文リスト
- Learned Single-Pass Multitasking Perceptual Graphics for Immersive Displays [11.15417027415116]
本稿では,テキスト誘導型マルチタスク・パーセプチュアルグラフィックスモデルを提案する。
我々のモデルは、フェーベレートレンダリング、ダイナミックレンジエンハンスメント、画像デノイング、クロモステロプシスなど、様々な知覚タスクをサポートしている。
組込みプラットフォーム上でのモデルの性能を評価し,ユーザスタディを通じてモデルの知覚的品質を評価する。
論文 参考訳(メタデータ) (2024-07-31T19:05:00Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks [38.6455393290578]
本稿では,デウォープ,デシェードイング,外観向上,デブロアリング,バイナライゼーションを含む5つの文書画像復元タスクを統一するDocResを提案する。
DocResに異なる復元タスクを指示するために、Dynamic Task-Specific Prompt (DTSPrompt)と呼ばれる新しいビジュアルプロンプトアプローチを提案する。
DTSPromptは、高解像度で可変解像度の入力にシームレスに適用できるため、従来の視覚的プロンプトアプローチよりも柔軟である。
論文 参考訳(メタデータ) (2024-05-07T15:35:43Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。