論文の概要: FireRed-Image-Edit-1.0 Techinical Report
- arxiv url: http://arxiv.org/abs/2602.13344v1
- Date: Thu, 12 Feb 2026 17:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.929368
- Title: FireRed-Image-Edit-1.0 Techinical Report
- Title(参考訳): FireRed-Image-Edit-1.0技術レポート
- Authors: Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo,
- Abstract要約: FireRed-Editは、インストラクションイメージ編集のための拡散変換器である。
データの体系的な最適化,トレーニング方法論,評価設計を通じて,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 30.973736748818826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.
- Abstract(参考訳): 本稿では,データキュレーション,トレーニング手法,評価設計の体系的最適化を通じて,最先端のパフォーマンスを実現する命令ベース画像編集用拡散変換器FireRed-Image-Editを提案する。
我々は、900万のテキスト・ツー・イメージと700万の画像編集ペアからなる1.6Bサンプル・トレーニング・コーパスを構築した。
厳密なクリーニング,成層化,自動ラベリング,二段階フィルタリングを経て,生成と編集のバランスのとれた高品質なサンプルを1億以上保持し,セマンティックカバレッジと命令アライメントを確保する。
私たちのマルチステージトレーニングパイプラインは、事前学習、教師付き微調整、強化学習による編集機能を段階的に構築する。
データ効率を向上させるため、可変分解能バッチ処理のためのマルチコンディション・アウェア・バケット・サンプラーと動的プロンプト・インデクシングによる確率的命令アライメントを導入する。
最適化の最適化と制御性の向上を目的として,DPOのための非対称勾配最適化,テキスト編集のためのレイアウト対応OCR報酬付きDiffusionNFT,ID保存のための微分整合損失を提案する。
REDEdit-Benchは15の編集カテゴリにまたがる総合的なベンチマークであり、新たに導入された美容と低レベルの拡張タスクを含んでいる。
REDEdit-Benchと公開ベンチマーク(ImgEditとGEdit)に関する大規模な実験は、オープンソースとプロプライエタリ両方のシステムに対して、競争力または優れたパフォーマンスを示している。
将来の研究をサポートするために、コード、モデル、ベンチマークスイートをリリースしています。
関連論文リスト
- VIBE: Visual Instruction Based Editor [60.21587335143115]
本稿では,高速な命令に基づく画像編集パイプラインを提案する。
パイプラインはImgEditとGEditベンチマークで評価される。
BF16ではNVIDIA H100で最大2K解像度で編集画像を生成するが、追加の推論最適化や蒸留は行わない。
論文 参考訳(メタデータ) (2026-01-05T16:17:20Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback [41.41713036839503]
本稿では,ポリシー最適化に基づく命令ベースの画像編集のための新しいポストトレーニングフレームワークであるEdit-R1を紹介する。
我々は,Multimodal Large Language Model (MLLM) を統一学習自由報酬モデルとして採用し,その出力ロジットを活用し,きめ細かいフィードバックを提供する。
私たちのフレームワークはモデルに依存しないため、多様なベースモデルに適用した場合、大幅なパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2025-10-19T15:38:06Z) - Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset [103.36732993526545]
命令ベースの動画編集のためのフレームワークであるDittoを開発した。
我々は100万の高忠実度ビデオ編集サンプルのデータセットを構築した。
カリキュラム学習戦略を用いてDitto-1MでモデルであるEdittoをトレーニングする。
論文 参考訳(メタデータ) (2025-10-17T15:31:40Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer [42.44787022143543]
ICEditはテキスト内編集のパラダイムであり、品質改善のためのパラメータ効率の最小限の微調整を行う。
トレーニングデータのわずか0.1%とトレーニング可能なパラメータ1%で、最先端の編集性能を実現している。
論文 参考訳(メタデータ) (2025-04-29T12:14:47Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。