論文の概要: Text-guided mask-free local image retouching
- arxiv url: http://arxiv.org/abs/2212.07603v1
- Date: Thu, 15 Dec 2022 03:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:49:48.822870
- Title: Text-guided mask-free local image retouching
- Title(参考訳): テキスト誘導マスクレス局所画像修正
- Authors: Zerun Liu, Fan Zhang, Jingxuan He, Jin Wang, Zhangye Wang, Lechao
Cheng
- Abstract要約: 本稿では,テキスト誘導型マスクレス画像修正手法を提案する。
本手法では,画像中の各オブジェクトのテキストに基づいて,可塑性マスクとエッジシャープマスクを構築することができる。
実験により,提案手法は,音声言語に基づく高品質で正確な画像を生成することができることがわかった。
- 参考スコア(独自算出の注目度): 12.472600455430769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of multi-modality, text-guided image retouching techniques
emerged with the advent of deep learning. Most currently available text-guided
methods, however, rely on object-level supervision to constrain the region that
may be modified. This not only makes it more challenging to develop these
algorithms, but it also limits how widely deep learning can be used for image
retouching. In this paper, we offer a text-guided mask-free image retouching
approach that yields consistent results to address this concern. In order to
perform image retouching without mask supervision, our technique can construct
plausible and edge-sharp masks based on the text for each object in the image.
Extensive experiments have shown that our method can produce high-quality,
accurate images based on spoken language. The source code will be released
soon.
- Abstract(参考訳): マルチモダリティの領域では、深層学習の出現とともにテキスト誘導画像修正技術が出現した。
しかし、現在利用可能なほとんどのテキスト誘導メソッドは、修正される可能性のある領域を制限するためにオブジェクトレベルの監督に依存している。
これにより、これらのアルゴリズムの開発がより困難になるだけでなく、画像のリタッチにディープラーニングがどの程度広く使われるかが制限される。
本稿では,この課題に対処するために,テキストガイドによるマスクフリー画像修正手法を提案する。
マスク監督なしで画像修正を行うため,画像中の各オブジェクトのテキストに基づいて,可塑性およびエッジシャープマスクを構築することができる。
広範に実験を行った結果,音声言語に基づく高品質で正確な画像が得られた。
ソースコードはまもなくリリースされる予定だ。
関連論文リスト
- DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - A Novel Framework For Text Detection From Natural Scene Images With Complex Background [0.0]
本稿では,ウェーブレット変換を用いた複雑な背景を持つ画像からテキスト領域を検出する手法を提案する。
このフレームワークは、元の画像をグレースケールでウェーブレット変換し、次にサブバンドフィルタリングする。
論文 参考訳(メタデータ) (2024-09-15T07:12:33Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Semantic-guided Multi-Mask Image Harmonization [10.27974860479791]
セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-24T11:48:49Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。