論文の概要: TBStar-Edit: From Image Editing Pattern Shifting to Consistency Enhancement
- arxiv url: http://arxiv.org/abs/2510.04483v1
- Date: Mon, 06 Oct 2025 04:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.680757
- Title: TBStar-Edit: From Image Editing Pattern Shifting to Consistency Enhancement
- Title(参考訳): TBStar-Edit:イメージ編集パターンから一貫性向上へ
- Authors: Hao Fang, Zechao Zhan, Weixin Feng, Ziwei Huang, XuBin Li, Tiezheng Ge,
- Abstract要約: 本稿では,eコマースドメインに適した画像編集モデルTBStar-Editを紹介する。
TBStar-Editは、製品の外観とレイアウトの整合性を保ちながら、正確かつ高忠実な画像編集を実現する。
自己提案型eコマースベンチマークにおいて,TBStar-Editの広範な評価を行う。
- 参考スコア(独自算出の注目度): 24.492977982150787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image generation and editing technologies have enabled state-of-the-art models to achieve impressive results in general domains. However, when applied to e-commerce scenarios, these general models often encounter consistency limitations. To address this challenge, we introduce TBStar-Edit, an new image editing model tailored for the e-commerce domain. Through rigorous data engineering, model architecture design and training strategy, TBStar-Edit achieves precise and high-fidelity image editing while maintaining the integrity of product appearance and layout. Specifically, for data engineering, we establish a comprehensive data construction pipeline, encompassing data collection, construction, filtering, and augmentation, to acquire high-quality, instruction-following, and strongly consistent editing data to support model training. For model architecture design, we design a hierarchical model framework consisting of a base model, pattern shifting modules, and consistency enhancement modules. For model training, we adopt a two-stage training strategy to enhance the consistency preservation: first stage for editing pattern shifting, and second stage for consistency enhancement. Each stage involves training different modules with separate datasets. Finally, we conduct extensive evaluations of TBStar-Edit on a self-proposed e-commerce benchmark, and the results demonstrate that TBStar-Edit outperforms existing general-domain editing models in both objective metrics (VIE Score) and subjective user preference.
- Abstract(参考訳): 画像生成・編集技術の最近の進歩により、最先端のモデルが一般的な領域で印象的な結果が得られるようになった。
しかし、eコマースのシナリオに適用すると、これらの一般的なモデルは一貫性の制限に直面することが多い。
この課題に対処するために,我々は,eコマースドメインに適した新しい画像編集モデルTBStar-Editを導入する。
TBStar-Editは厳密なデータエンジニアリング、モデルアーキテクチャ設計、トレーニング戦略を通じて、製品の外観とレイアウトの整合性を維持しつつ、正確かつ高忠実な画像編集を実現する。
具体的には、データエンジニアリングのために、データ収集、構築、フィルタリング、拡張を含む包括的なデータ構築パイプラインを構築し、モデルトレーニングをサポートするための高品質、命令フォロー、一貫性のある編集データを取得する。
モデルアーキテクチャ設計では,基本モデル,パターンシフトモジュール,一貫性強化モジュールで構成される階層型モデルフレームワークを設計する。
モデルトレーニングには,一貫性維持のための2段階のトレーニング戦略,パターンシフトの編集のための第1段階,一貫性向上のための第2段階を採用する。
各ステージは異なるデータセットで異なるモジュールをトレーニングする。
最後に,TBStar-Editを自己提案型eコマースベンチマークで広範囲に評価し,TBStar-Editが既存の汎用ドメイン編集モデルよりも客観評価(VIEスコア)と主観的ユーザ嗜好の両方で優れていることを示した。
関連論文リスト
- Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning [5.5731375523793645]
X2Editデータセットは、14の多様な編集タスクをカバーする包括的なデータセットである。
バランスの取れたカテゴリで370万の高品質なデータを構築します。
実験により、多くの優れたモデルの間で、モデルの編集性能が競争力があることが示されている。
論文 参考訳(メタデータ) (2025-08-11T04:22:49Z) - $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark [36.58090024531738]
我々は、命令ベースの画像編集モデルを評価するために設計された包括的なベンチマークである$ttexttComplex-Edit$を紹介した。
我々は GPT-4o を利用して,様々な編集命令を大規模に収集する。
本稿では,VLMに基づく自動評価パイプラインとともに,編集性能のさまざまな側面を評価するための指標について紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:51:59Z) - Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。
本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。
都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:23:29Z) - UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - DreamOmni: Unified Image Generation and Editing [76.46811926046225]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。