Fugu-MT 論文翻訳(概要): ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping

論文の概要: ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping

arxiv url: http://arxiv.org/abs/2406.00985v3
Date: Sun, 03 Nov 2024 20:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.173184
Title: ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping
Title（参考訳）: ParallelEdits: 注意グループによる効率的な多視点テキスト駆動画像編集
Authors: Mingzhen Huang, Jialing Cai, Shan Jia, Vishnu Suresh Lokhande, Siwei Lyu,
Abstract要約: ParallelEditsは、複数の属性をまたいだ同時編集をシームレスに管理するメソッドである。 PIE-Bench++データセットは、多面的シナリオにおけるテキスト駆動の画像編集方法を評価するためのベンチマークである。
参考スコア（独自算出の注目度）: 31.026083872774834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-driven image synthesis has made significant advancements with the development of diffusion models, transforming how visual content is generated from text prompts. Despite these advances, text-driven image editing, a key area in computer graphics, faces unique challenges. A major challenge is making simultaneous edits across multiple objects or attributes. Applying these methods sequentially for multi-attribute edits increases computational demands and efficiency losses. In this paper, we address these challenges with significant contributions. Our main contribution is the development of ParallelEdits, a method that seamlessly manages simultaneous edits across multiple attributes. In contrast to previous approaches, ParallelEdits not only preserves the quality of single attribute edits but also significantly improves the performance of multitasking edits. This is achieved through innovative attention distribution mechanism and multi-branch design that operates across several processing heads. Additionally, we introduce the PIE-Bench++ dataset, an expansion of the original PIE-Bench dataset, to better support evaluating image-editing tasks involving multiple objects and attributes simultaneously. This dataset is a benchmark for evaluating text-driven image editing methods in multifaceted scenarios.
Abstract（参考訳）: テキスト駆動画像合成は、テキストプロンプトから視覚コンテンツがどのように生成されるかを変える拡散モデルの開発において、大きな進歩を遂げた。これらの進歩にもかかわらず、コンピュータグラフィックスの重要な領域であるテキスト駆動画像編集は、ユニークな課題に直面している。最大の課題は、複数のオブジェクトや属性を同時に編集することだ。マルチ属性編集にこれらの手法を順次適用すると、計算要求と効率損失が増大する。本稿では,これらの課題に多大な貢献をしながら対処する。主なコントリビューションは、複数の属性をまたいだ同時編集をシームレスに管理するParallelEditsの開発です。従来のアプローチとは対照的に、ParallelEditsは単一の属性編集の品質を保持するだけでなく、マルチタスク編集のパフォーマンスを大幅に改善する。これは、革新的な注意分布機構と、複数の処理ヘッドで動作するマルチブランチ設計によって実現される。さらに、元のPIE-Benchデータセットを拡張したPIE-Bench++データセットを導入し、複数のオブジェクトと属性を含む画像編集タスクの評価を同時にサポートする。このデータセットは、多面的シナリオにおけるテキスト駆動画像編集手法を評価するためのベンチマークである。

関連論文リスト

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks [46.87912659985628]
MultiEditは、107K以上の高品質の画像編集サンプルを備えた包括的なデータセットである。 18の非スタイルの編集タイプと38のスタイルの転送操作の多様なコレクションを通じて、6つの困難な編集タスクを含んでいる。我々は、2つのマルチモーダル大言語モデル(MLLM)を用いて視覚適応的な編集命令を生成する新しいデータセット構築パイプラインを用いる。
論文参考訳（メタデータ） (2025-09-18T05:33:38Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
Improving Editability in Image Generation with Layer-wise Memory [23.004027029130953]
現在の編集アプローチは、主に単一オブジェクトの修正用に設計されており、シーケンシャルな編集に苦労している。新しい要素を自然に統合しながら、既存のコンテンツを保存する粗いマスク入力を実現することを提案する。我々のフレームワークはレイヤワイドメモリによってこれを実現し、遅延表現を格納し、以前の編集からの埋め込みを促す。
論文参考訳（メタデータ） (2025-05-02T07:36:49Z)
IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。 IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文参考訳（メタデータ） (2025-01-17T02:47:25Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは、生成タスクにおいて強力な性能を示しており、画像編集の理想的な候補となっている。本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。 FunEditorは、オブジェクトムーブメントのような複雑なタスクの既存のメソッドよりも5倍から24倍高速な推論を行う。
論文参考訳（メタデータ） (2024-08-16T02:33:55Z)
An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文参考訳（メタデータ） (2024-03-07T20:06:29Z)
LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文参考訳（メタデータ） (2024-03-01T10:46:47Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文参考訳（メタデータ） (2023-07-02T09:11:09Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)
ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文参考訳（メタデータ） (2022-10-02T07:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。