論文の概要: Watch Your Steps: Local Image and Scene Editing by Text Instructions
- arxiv url: http://arxiv.org/abs/2308.08947v1
- Date: Thu, 17 Aug 2023 12:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:45:07.974915
- Title: Watch Your Steps: Local Image and Scene Editing by Text Instructions
- Title(参考訳): ステップを見る: テキストによるローカル画像とシーンの編集
- Authors: Ashkan Mirzaei, Tristan Aumentado-Armstrong, Marcus A. Brubaker,
Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor
Gilitschenski
- Abstract要約: テキスト命令で暗黙的に所望の編集領域をローカライズする手法を提案する。
InstructPix2Pix (IP2P) を利用して,IP2P予測と命令の有無の相違を識別する。
関連マップは、編集を行うために各ピクセルを変更することの重要性を伝え、修正を導くために使用される。
- 参考スコア(独自算出の注目度): 34.836151514152746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models have enabled high-quality image generation and
editing. We present a method to localize the desired edit region implicit in a
text instruction. We leverage InstructPix2Pix (IP2P) and identify the
discrepancy between IP2P predictions with and without the instruction. This
discrepancy is referred to as the relevance map. The relevance map conveys the
importance of changing each pixel to achieve the edits, and is used to to guide
the modifications. This guidance ensures that the irrelevant pixels remain
unchanged. Relevance maps are further used to enhance the quality of
text-guided editing of 3D scenes in the form of neural radiance fields. A field
is trained on relevance maps of training views, denoted as the relevance field,
defining the 3D region within which modifications should be made. We perform
iterative updates on the training views guided by rendered relevance maps from
the relevance field. Our method achieves state-of-the-art performance on both
image and NeRF editing tasks. Project page:
https://ashmrz.github.io/WatchYourSteps/
- Abstract(参考訳): ノイズ拡散モデルは高品質な画像生成と編集を可能にした。
テキスト命令で暗黙的に所望の編集領域をローカライズする手法を提案する。
InstructPix2Pix (IP2P) を利用して,IP2P予測と命令の有無の相違を識別する。
この不一致を関係写像と呼ぶ。
関連マップは、編集を行うために各ピクセルを変更することの重要性を伝え、修正をガイドするために使用される。
このガイダンスは、無関係なピクセルが不変であることを保証する。
関連地図はさらに,3次元シーンのテキスト誘導編集の質を高めるために,ニューラルラディアンスフィールドの形で用いられている。
フィールドは、トレーニングビューの関連マップに基づいてトレーニングされ、関連フィールドとして表示され、修正すべき3D領域を定義する。
我々は、関連フィールドからレンダリングされた関連マップに導かれたトレーニングビューを反復的に更新する。
本手法は画像編集とNeRF編集の両方で最先端の性能を実現する。
プロジェクトページ: https://ashmrz.github.io/WatchYourSteps/
関連論文リスト
- Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - LocInv: Localization-aware Inversion for Text-Guided Image Editing [17.611103794346857]
テキスト誘導画像編集研究は、ユーザーがテキストプロンプトを変更して生成した画像を操作できるようにすることを目的としている。
既存の画像編集技術は、意図した対象領域を超えて意図しない領域を編集する傾向がある。
そこで我々は, セグメンテーションマップやバウンディングボックスを付加的なローカライゼーションとして活用して, クロスアテンションマップを改良するローカライゼーション対応インバージョン(LocInv)を提案する。
論文 参考訳(メタデータ) (2024-05-02T17:27:04Z) - LatentEditor: Text Driven Local Editing of 3D Scenes [8.966537479017951]
テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
論文 参考訳(メタデータ) (2023-12-14T19:38:06Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - Learning to Follow Object-Centric Image Editing Instructions Faithfully [26.69032113274608]
自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。
我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。
我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
論文 参考訳(メタデータ) (2023-10-29T20:39:11Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。