論文の概要: Learning by Planning: Language-Guided Global Image Editing
- arxiv url: http://arxiv.org/abs/2106.13156v1
- Date: Thu, 24 Jun 2021 16:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:05:22.834760
- Title: Learning by Planning: Language-Guided Global Image Editing
- Title(参考訳): 計画による学習:言語によるグローバルイメージ編集
- Authors: Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang
Xu
- Abstract要約: あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 53.72807421111136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, language-guided global image editing draws increasing attention
with growing application potentials. However, previous GAN-based methods are
not only confined to domain-specific, low-resolution data but also lacking in
interpretability. To overcome the collective difficulties, we develop a
text-to-operation model to map the vague editing language request into a series
of editing operations, e.g., change contrast, brightness, and saturation. Each
operation is interpretable and differentiable. Furthermore, the only
supervision in the task is the target image, which is insufficient for a stable
training of sequential decisions. Hence, we propose a novel operation planning
algorithm to generate possible editing sequences from the target image as
pseudo ground truth. Comparison experiments on the newly collected MA5k-Req
dataset and GIER dataset show the advantages of our methods. Code is available
at https://jshi31.github.io/T2ONet.
- Abstract(参考訳): 近年,言語指導によるグローバル画像編集は,アプリケーションの可能性の増大に伴って注目を集めている。
しかし、従来のganベースの手法は、ドメイン固有の低解像度データに制限されるだけでなく、解釈可能性に欠ける。
この課題を克服するために, 曖昧な編集言語要求を, コントラスト, 輝度, 彩度などの一連の編集操作にマッピングするテキスト・ツー・オペレーションモデルを開発した。
各操作は解釈可能で微分可能である。
さらに、タスク内の唯一の監視対象イメージは、シーケンシャルな決定の安定したトレーニングには不十分である。
そこで本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する新しい操作計画アルゴリズムを提案する。
新たに収集したma5k-reqデータセットとgierデータセットの比較実験により,本手法の利点を示す。
コードはhttps://jshi31.github.io/T2ONetで入手できる。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。
本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。
本手法は,既存の編集方法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-23T16:54:17Z) - InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - Variational Bayesian Framework for Advanced Image Generation with
Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。
本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T09:47:23Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - A Benchmark and Baseline for Language-Driven Image Editing [81.74863590492663]
まず,ローカル編集とグローバル編集の両方をサポートする新しい言語駆動画像編集データセットを提案する。
本手法では,各編集操作をサブモジュールとして扱い,演算パラメータを自動的に予測する。
ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると確信しています。
論文 参考訳(メタデータ) (2020-10-05T20:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。