論文の概要: A Benchmark and Baseline for Language-Driven Image Editing
- arxiv url: http://arxiv.org/abs/2010.02330v1
- Date: Mon, 5 Oct 2020 20:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:57:31.502609
- Title: A Benchmark and Baseline for Language-Driven Image Editing
- Title(参考訳): 言語駆動画像編集のためのベンチマークとベースライン
- Authors: Jing Shi, Ning Xu, Trung Bui, Franck Dernoncourt, Zheng Wen, Chenliang
Xu
- Abstract要約: まず,ローカル編集とグローバル編集の両方をサポートする新しい言語駆動画像編集データセットを提案する。
本手法では,各編集操作をサブモジュールとして扱い,演算パラメータを自動的に予測する。
ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると確信しています。
- 参考スコア(独自算出の注目度): 81.74863590492663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-driven image editing can significantly save the laborious image
editing work and be friendly to the photography novice. However, most similar
work can only deal with a specific image domain or can only do global
retouching. To solve this new task, we first present a new language-driven
image editing dataset that supports both local and global editing with editing
operation and mask annotations. Besides, we also propose a baseline method that
fully utilizes the annotation to solve this problem. Our new method treats each
editing operation as a sub-module and can automatically predict operation
parameters. Not only performing well on challenging user data, but such an
approach is also highly interpretable. We believe our work, including both the
benchmark and the baseline, will advance the image editing area towards a more
general and free-form level.
- Abstract(参考訳): 言語による画像編集は、面倒な画像編集作業を大幅に節約し、写真初心者に親しみやすくする。
しかし、ほとんどの類似の作業は特定のイメージドメインのみを扱うか、あるいはグローバルリタッチしかできない。
この課題を解決するために,まず,ローカル編集とグローバル編集の両方を編集操作とマスクアノテーションでサポートする,言語駆動型画像編集データセットを提案する。
また,この問題を解決するためにアノテーションを完全に活用するベースライン手法を提案する。
提案手法では,各編集操作をサブモジュールとして処理し,操作パラメータを自動的に予測する。
挑戦的なユーザデータだけでなく、このようなアプローチも非常に解釈可能である。
ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると考えています。
関連論文リスト
- InstructGIE: Towards Generalizable Image Editing [36.90841880248305]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。