論文の概要: In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2504.20690v3
- Date: Tue, 23 Sep 2025 02:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.860118
- Title: In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
- Title(参考訳): インコンテクスト編集:大規模拡散変換器におけるインコンテクスト生成によるインコンテクスト画像編集の実現
- Authors: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang,
- Abstract要約: ICEditはテキスト内編集のパラダイムであり、品質改善のためのパラメータ効率の最小限の微調整を行う。
トレーニングデータのわずか0.1%とトレーニング可能なパラメータ1%で、最先端の編集性能を実現している。
- 参考スコア(独自算出の注目度): 42.44787022143543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing enables precise modifications via natural language prompts, but existing methods face a precision-efficiency tradeoff: fine-tuning demands massive datasets (>10M) and computational resources, while training-free approaches suffer from weak instruction comprehension. We address this by proposing ICEdit, which leverages the inherent comprehension and generation abilities of large-scale Diffusion Transformers (DiTs) through three key innovations: (1) An in-context editing paradigm without architectural modifications; (2) Minimal parameter-efficient fine-tuning for quality improvement; (3) Early Filter Inference-Time Scaling, which uses VLMs to select high-quality noise samples for efficiency. Experiments show that ICEdit achieves state-of-the-art editing performance with only 0.1\% of the training data and 1\% trainable parameters compared to previous methods. Our approach establishes a new paradigm for balancing precision and efficiency in instructional image editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.
- Abstract(参考訳): インストラクションベースの画像編集は、自然言語のプロンプトによる正確な修正を可能にするが、既存の手法では精度と効率のトレードオフに直面している。
本稿では,大規模拡散変換器(DiT)の固有理解と生成能力を活用するICEditを提案し,(1)アーキテクチャ変更なしのテキスト内編集パラダイム,(2)品質改善のための最小パラメータ効率の微調整,(3)VLMを用いて高品質ノイズサンプルを効率よく選択する早期フィルタ推論スケーリングを提案する。
実験の結果,ICEditはトレーニングデータの0.1倍,トレーニング可能なパラメータ1倍の精度で,最先端の編集性能を実現していることがわかった。
提案手法は,画像編集における精度と効率のバランスをとるための新しいパラダイムを確立する。
コードとデモはhttps://river-zhang.github.io/ICEdit-gh-pages/.comで見ることができる。
関連論文リスト
- Context Tuning for In-Context Optimization [11.728105991946773]
コンテキストチューニングは、微調整モデルパラメータを使わずに、言語モデル(LLM)の少数ショット適応を強化する、シンプルで効果的な方法である。
プロンプトベースの適応とは対照的に、Context Tuningはトレーニング可能なプロンプトやプレフィックスをタスク固有のデモ例で初期化する。
CrossFit、UnifiedQA、MMLU、BIG-Bench Hard、ARCといったベンチマークの大規模な評価は、Context Tuningが従来のプロンプトベースの適応手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2025-07-06T03:23:53Z) - Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - COT Flow: Learning Optimal-Transport Image Sampling and Editing by Contrastive Pairs [7.542892664684078]
Contrastive Optimal Transport Flow (COT Flow) は、ゼロショット編集の柔軟性を向上し、高速かつ高品質な生成を実現する新しい手法である。
品質の面では、COT Flowは従来の最先端のイメージ・ツー・イメージ(I2I)翻訳法と比較して1ステップで競合結果を生成することができる。
COT Flowは、従来の最先端の未実装画像画像変換法(I2I)と比較して、競争力のある結果を生成することができる。
論文 参考訳(メタデータ) (2024-06-17T23:02:20Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。