論文の概要: Group Editing: Edit Multiple Images in One Go
- arxiv url: http://arxiv.org/abs/2603.22883v3
- Date: Thu, 26 Mar 2026 10:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 13:32:29.884785
- Title: Group Editing: Edit Multiple Images in One Go
- Title(参考訳): Group Editing: 複数の画像を1回で編集する
- Authors: Yue Ma, Xinyu Wang, Qianli Ma, Qinghe Wang, Mingzhe Zheng, Xiangpeng Yang, Hao Li, Chongbo Zhao, Jixuan Ying, Harry Yang, Hongyu Liu, Qifeng Chen,
- Abstract要約: GroupEditingは、グループ内の画像間の明示的で暗黙的な関係を構築するフレームワークである。
GroupEditDataは、高品質なマスクと多数のイメージグループの詳細なキャプションを含むデータセットである。
グループレベルの画像編集の有効性を評価するためのベンチマークであるGroupEditBenchを提案する。
- 参考スコア(独自算出の注目度): 48.78947366708772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of performing consistent and unified modifications across a set of related images. This task is particularly challenging because these images may vary significantly in pose, viewpoint, and spatial layout. Achieving coherent edits requires establishing reliable correspondences across the images, so that modifications can be applied accurately to semantically aligned regions. To address this, we propose GroupEditing, a novel framework that builds both explicit and implicit relationships among images within a group. On the explicit side, we extract geometric correspondences using VGGT, which provides spatial alignment based on visual features. On the implicit side, we reformulate the image group as a pseudo-video and leverage the temporal coherence priors learned by pre-trained video models to capture latent relationships. To effectively fuse these two types of correspondences, we inject the explicit geometric cues from VGGT into the video model through a novel fusion mechanism. To support large-scale training, we construct GroupEditData, a new dataset containing high-quality masks and detailed captions for numerous image groups. Furthermore, to ensure identity preservation during editing, we introduce an alignment-enhanced RoPE module, which improves the model's ability to maintain consistent appearance across multiple images. Finally, we present GroupEditBench, a dedicated benchmark designed to evaluate the effectiveness of group-level image editing. Extensive experiments demonstrate that GroupEditing significantly outperforms existing methods in terms of visual quality, cross-view consistency, and semantic alignment.
- Abstract(参考訳): 本稿では,一連の関連画像に対して一貫した,一貫した修正を行うという課題に対処する。
この課題は、これらの画像がポーズ、視点、空間的レイアウトにおいて著しく異なる可能性があるため、特に困難である。
コヒーレントな編集を実現するには、画像全体にわたる信頼性の高い対応を確立する必要があるため、意味的に整合した領域に正確に修正を適用することができる。
これを解決するために,グループ内の画像間の明示的および暗黙的な関係を構築する新しいフレームワークであるGroupEditingを提案する。
本稿では,視覚的特徴に基づく空間的アライメントを提供するVGGTを用いて,幾何学的対応を抽出する。
暗黙の側面では、画像群を擬似ビデオとして再構成し、事前学習されたビデオモデルから得られた時間的コヒーレンスを生かして、潜伏関係を捉える。
これら2種類の対応を効果的に融合させるため、新しい融合機構によりVGGTからビデオモデルに明示的な幾何学的手がかりを注入する。
大規模なトレーニングを支援するために,多数の画像グループを対象とした高品質なマスクと詳細なキャプションを含む新しいデータセットであるGroupEditDataを構築した。
さらに、編集中のアイデンティティの保存を確保するため、複数の画像に対して一貫した外観を維持できるアライメント強化されたRoPEモジュールを導入する。
最後に,グループレベルの画像編集の有効性を評価するための専用のベンチマークであるGroupEditBenchを紹介する。
大規模な実験により、グループ編集は、視覚的品質、横断的な一貫性、セマンティックアライメントの点で、既存のメソッドを著しく上回っていることが示された。
関連論文リスト
- EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing [84.7089707244905]
Masked Generative Transformers (MGT) は、編集プロセス中に非関連領域を保存するために固有の能力を持つローカライズされたデコードパラダイムを示す。
本稿では,MGT ベースの画像編集フレームワーク EditMGT を紹介する。
EditMGTのクロスアテンションマップは、編集関連領域をローカライズするための情報的ローカライズ信号を提供する。
また、低アテンション領域におけるトークンのフリップを制限する領域ホールドサンプリングを導入し、急激な編集を抑える。
論文 参考訳(メタデータ) (2025-12-12T16:51:19Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。