論文の概要: Optimisation-Based Multi-Modal Semantic Image Editing
- arxiv url: http://arxiv.org/abs/2311.16882v1
- Date: Tue, 28 Nov 2023 15:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:53:04.081942
- Title: Optimisation-Based Multi-Modal Semantic Image Editing
- Title(参考訳): 最適化に基づくマルチモーダル意味画像編集
- Authors: Bowen Li, Yongxin Yang, Steven McDonagh, Shifeng Zhang, Petru-Daniel
Tudosiu, Sarah Parisot
- Abstract要約: 本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
- 参考スコア(独自算出の注目度): 58.496064583110694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image editing affords increased control over the aesthetics and content of
generated images. Pre-existing works focus predominantly on text-based
instructions to achieve desired image modifications, which limit edit precision
and accuracy. In this work, we propose an inference-time editing optimisation,
designed to extend beyond textual edits to accommodate multiple editing
instruction types (e.g. spatial layout-based; pose, scribbles, edge maps). We
propose to disentangle the editing task into two competing subtasks: successful
local image modifications and global content consistency preservation, where
subtasks are guided through two dedicated loss functions. By allowing to adjust
the influence of each loss function, we build a flexible editing solution that
can be adjusted to user preferences. We evaluate our method using text, pose
and scribble edit conditions, and highlight our ability to achieve complex
edits, through both qualitative and quantitative experiments.
- Abstract(参考訳): 画像編集は、生成された画像の美学と内容のコントロールを高める。
既存の作品は、編集精度と精度を制限し、所望の画像修正を達成するために主にテキストベースの命令に焦点を当てている。
本稿では,複数の編集命令型(例えば空間レイアウトベース,ポーズ,スクリブル,エッジマップなど)に対応するために,テキスト編集以外にも拡張可能な推論時間編集最適化を提案する。
そこで本研究では,ローカル画像修正の成功とグローバルコンテンツ一貫性の維持という2つのサブタスクに編集タスクを分割し,サブタスクを2つの専用損失関数で導くことを提案する。
各損失関数の影響を調整できるようにすることで、ユーザ好みに合わせて調整可能な柔軟な編集ソリューションを構築します。
本手法は,テキスト,ポーズ,スクリブル編集条件を用いて評価し,質的および定量的な実験を通して,複雑な編集を実現する能力を強調した。
関連論文リスト
- DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。