論文の概要: Learning to Follow Object-Centric Image Editing Instructions Faithfully
- arxiv url: http://arxiv.org/abs/2310.19145v1
- Date: Sun, 29 Oct 2023 20:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:57:21.835693
- Title: Learning to Follow Object-Centric Image Editing Instructions Faithfully
- Title(参考訳): 物体中心画像編集指導を忠実に追従する学習
- Authors: Tuhin Chakrabarty, Kanishk Singh, Arkadiy Saakyan, Smaranda Muresan
- Abstract要約: 自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。
我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。
我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
- 参考スコア(独自算出の注目度): 26.69032113274608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language instructions are a powerful interface for editing the
outputs of text-to-image diffusion models. However, several challenges need to
be addressed: 1) underspecification (the need to model the implicit meaning of
instructions) 2) grounding (the need to localize where the edit has to be
performed), 3) faithfulness (the need to preserve the elements of the image not
affected by the edit instruction). Current approaches focusing on image editing
with natural language instructions rely on automatically generated paired data,
which, as shown in our investigation, is noisy and sometimes nonsensical,
exacerbating the above issues. Building on recent advances in segmentation,
Chain-of-Thought prompting, and visual question answering, we significantly
improve the quality of the paired data. In addition, we enhance the supervision
signal by highlighting parts of the image that need to be changed by the
instruction. The model fine-tuned on the improved data is capable of performing
fine-grained object-centric edits better than state-of-the-art baselines,
mitigating the problems outlined above, as shown by automatic and human
evaluations. Moreover, our model is capable of generalizing to domains unseen
during training, such as visual metaphors.
- Abstract(参考訳): 自然言語命令はテキストから画像への拡散モデルの出力を編集するための強力なインタフェースである。
しかし、いくつかの課題に対処する必要がある。
1)過小指定(指示の暗黙的意味をモデル化する必要性)
2)接地(編集を行うべき箇所をローカライズする必要がある)
3)忠実性(編集指示に影響されない画像の要素を保存する必要性)。
現在、自然言語命令による画像編集に焦点を当てたアプローチは、自動生成されたペアデータに依存している。
セグメンテーション,チェーン・オブ・マインド・プロンプト,視覚的質問応答の最近の進歩に基づき,ペアデータの品質が大幅に向上した。
さらに、命令によって変更する必要がある画像の一部を強調することにより、監視信号を強化する。
改良されたデータに基づいて微調整されたモデルは、上述した問題を緩和し、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
さらに,本モデルでは,視覚的メタファーなどのトレーニング中に見えない領域に一般化することができる。
関連論文リスト
- Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing [77.12834553200632]
本稿ではReasonPix2Pixを紹介した。
データセットの特徴は,1)推論命令,2)細かなカテゴリのよりリアルな画像,3)入力画像と編集画像のばらつきの増大である。
教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-18T06:03:42Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。