Fugu-MT 論文翻訳(概要): Edit Everything: A Text-Guided Generative System for Images Editing

論文の概要: Edit Everything: A Text-Guided Generative System for Images Editing

arxiv url: http://arxiv.org/abs/2304.14006v1
Date: Thu, 27 Apr 2023 07:57:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 14:06:12.597415
Title: Edit Everything: A Text-Guided Generative System for Images Editing
Title（参考訳）: 編集はすべて:画像編集のためのテキストガイド生成システム
Authors: Defeng Xie, Ruichen Wang, Jian Ma, Chen Chen, Haonan Lu, Dong Yang, Fobo Shi, Xiaodong Lin
Abstract要約: 我々は、画像とテキストの入力を取り込み、画像出力を生成できるEdit Everythingと呼ばれる新しい生成システムを導入する。システム設計では,要求された画像を生成する際に視覚モジュールを案内する。
参考スコア（独自算出の注目度）: 8.17049365708398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new generative system called Edit Everything, which can take image and text inputs and produce image outputs. Edit Everything allows users to edit images using simple text instructions. Our system designs prompts to guide the visual module in generating requested images. Experiments demonstrate that Edit Everything facilitates the implementation of the visual aspects of Stable Diffusion with the use of Segment Anything model and CLIP. Our system is publicly available at https://github.com/DefengXie/Edit_Everything.
Abstract（参考訳）: 我々は、画像とテキストの入力を取り込み、画像出力を生成できるEdit Everythingと呼ばれる新しい生成システムを導入する。 Edit Everythingを使えばユーザーは簡単なテキストで画像を編集できる。システム設計では,要求画像の生成において視覚モジュールを誘導する。実験では、すべての編集が、Segment AnythingモデルとCLIPを使用して、安定拡散の視覚的側面の実装を促進することを示した。私たちのシステムはhttps://github.com/DefengXie/Edit_Everything.comで公開されています。

関連論文リスト

FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。 FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳（メタデータ） (2025-03-25T16:59:42Z)
FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文参考訳（メタデータ） (2024-09-26T17:18:39Z)
EditScribe: Non-Visual Image Editing with Natural Language Verification Loops [12.16675723509151]
EditScribeは、大規模なマルチモーダルモデルを利用した自然言語検証ループを使用して画像編集を可能にするプロトタイプシステムである。ユーザはまず、最初のジェネリクスとオブジェクト記述を通じて画像内容を理解し、その後、オープンな自然言語プロンプトを使用して編集動作を指定する。視覚障害者10名を対象にした調査では、EditScribeが画像編集動作を非視覚的に実行し、検証することを支援した。
論文参考訳（メタデータ） (2024-08-13T04:40:56Z)
Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing [24.316956641791034]
拡散型編集システムのためのゼロショット推論パイプラインを提案する。入力命令を特定の命令に分解するために,大言語モデル (LLM) を用いる。我々のパイプラインは、編集モデルの解釈可能性を改善し、出力の多様性を高めます。
論文参考訳（メタデータ） (2024-07-29T17:59:57Z)
Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。 IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文参考訳（メタデータ） (2024-05-31T18:22:29Z)
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。本手法は,既存の編集方法よりも大幅に優れる。
論文参考訳（メタデータ） (2024-05-23T16:54:17Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文参考訳（メタデータ） (2023-07-26T17:50:10Z)
InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions [46.88926203020054]
InstructEdit というフレームワークを提案し,ユーザ命令に基づいてきめ細かい編集を行う。本手法は, より微細な編集アプリケーションにおいて, 従来の編集方法よりも優れていた。
論文参考訳（メタデータ） (2023-05-29T12:24:58Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。