論文の概要: WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing
- arxiv url: http://arxiv.org/abs/2603.11593v1
- Date: Thu, 12 Mar 2026 06:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.925924
- Title: WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing
- Title(参考訳): WeEdit: テキスト中心の画像編集のためのデータセット、ベンチマーク、グリフガイドフレームワーク
- Authors: Hui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: WeEditは、スケーラブルなデータ構築パイプラインと2つのベンチマーク、2段階のトレーニング戦略を含む、システマティックなソリューションである。
具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。
アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
- 参考スコア(独自算出の注目度): 103.68419705566146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing aims to modify specific content within existing images according to user-provided instructions while preserving non-target regions. Beyond traditional object- and style-centric manipulation, text-centric image editing focuses on modifying, translating, or rearranging textual elements embedded within images. However, existing leading models often struggle to execute complex text editing precisely, frequently producing blurry or hallucinated characters. We attribute these failures primarily to the lack of specialized training paradigms tailored for text-centric editing, as well as the absence of large-scale datasets and standardized benchmarks necessary for a closed-loop training and evaluation system. To address these limitations, we present WeEdit, a systematic solution encompassing a scalable data construction pipeline, two benchmarks, and a tailored two-stage training strategy. Specifically, we propose a novel HTML-based automatic editing pipeline, which generates 330K training pairs covering diverse editing operations and 15 languages, accompanied by standardized bilingual and multilingual benchmarks for comprehensive evaluation. On the algorithmic side, we employ glyph-guided supervised fine-tuning to inject explicit spatial and content priors, followed by a multi-objective reinforcement learning stage to align generation with instruction adherence, text clarity, and background preservation. Extensive experiments demonstrate that WeEdit outperforms previous open-source models by a clear margin across diverse editing operations.
- Abstract(参考訳): インストラクションベースの画像編集は、ユーザが提供する指示に従って既存の画像内の特定の内容を変更することを目的としており、非ターゲット領域を保存している。
従来のオブジェクト指向やスタイル中心の操作以外にも、テキスト中心の画像編集は、画像に埋め込まれたテキスト要素の変更、翻訳、再構成に焦点を当てている。
しかし、既存の指導的モデルは、しばしば複雑なテキスト編集を正確に実行するのに苦労し、曖昧な文字や幻覚文字をしばしば生成する。
これらの失敗は、主にテキスト中心の編集に適した特別なトレーニングパラダイムの欠如と、クローズドループトレーニングと評価システムに必要な大規模なデータセットと標準ベンチマークの欠如が原因である。
これらの制限に対処するため、スケーラブルなデータ構築パイプラインと2つのベンチマーク、そして2段階のトレーニング戦略を含む、体系的なソリューションであるWeEditを紹介します。
具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。
アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
大規模な実験により、WeEditは、様々な編集操作において、以前のオープンソースモデルよりも明確なマージンで優れていることが示されている。
関連論文リスト
- LocateEdit-Bench: A Benchmark for Instruction-Based Editing Localization [21.62979058692505]
フォージェリローカライゼーション手法をベンチマークするために,231ドルの編集画像からなる大規模データセットを提案する。
データセットには、4つの最先端編集モデルと3つの一般的な編集タイプが組み込まれている。
我々の研究は、画像編集の進化する状況に追従する基盤を確立し、将来の偽のローカライゼーションのための効果的な手法の開発を容易にする。
論文 参考訳(メタデータ) (2026-02-05T12:01:09Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint [87.20985852686785]
本研究では,教師なし指導に基づく画像編集手法を提案する。
本稿では,編集可逆性制約 (ERC) と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
これにより、地道に編集されたイメージの必要性を回避し、実際のイメージキャプチャペアまたはイメージキャプチャインストラクショントリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。
既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。
保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。