論文の概要: In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2504.20690v1
- Date: Tue, 29 Apr 2025 12:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.8884
- Title: In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
- Title(参考訳): インコンテクスト編集:大規模拡散変換器におけるインコンテクスト生成によるインコンテクスト画像編集の実現
- Authors: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang,
- Abstract要約: In-context prompting を用いたゼロショット命令コンプライアンスのためのテキスト内編集フレームワークを提案する。
また、効率的な適応と動的エキスパートルーティングにより柔軟性を向上させるLoRA-MoEハイブリッドチューニング戦略を提案する。
この研究は、高精度で効率的な命令誘導編集を可能にする新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 32.45070206621554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.
- Abstract(参考訳): インストラクションベースの画像編集は、自然言語のプロンプトによる堅牢な画像修正を可能にするが、現在の手法は精度と効率のトレードオフに直面している。
微調整手法は重要な計算資源と大規模なデータセットを必要とするが、訓練なしの手法は命令の理解と品質の編集に苦労する。
このジレンマを,大規模拡散変換器(DiT)の高次生成能力と文脈認識を活用して解決する。
提案手法では,(1)コンテキスト内プロンプトを用いたゼロショット命令コンプライアンスのためのテキスト内編集フレームワーク,(2)効率的な適応と動的エキスパートルーティングによる柔軟性を向上させるLoRA-MoEハイブリッドチューニング戦略,(3)視覚言語モデル(VLM)を用いた早期フィルタ推論時間スケーリング手法により,初期ノイズを早期に選択し,編集品質を向上する,という3つのコントリビューションを紹介した。
従来のベースラインに比べてトレーニング可能なパラメータは0.5%しか必要とせず、最先端のアプローチよりも優れています。
この研究は、高精度で効率的な命令誘導編集を可能にする新しいパラダイムを確立する。
コードとデモはhttps://river-zhang.github.io/ICEdit-gh-pages/.comで見ることができる。
関連論文リスト
- Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - COT Flow: Learning Optimal-Transport Image Sampling and Editing by Contrastive Pairs [7.542892664684078]
Contrastive Optimal Transport Flow (COT Flow) は、ゼロショット編集の柔軟性を向上し、高速かつ高品質な生成を実現する新しい手法である。
品質の面では、COT Flowは従来の最先端のイメージ・ツー・イメージ(I2I)翻訳法と比較して1ステップで競合結果を生成することができる。
COT Flowは、従来の最先端の未実装画像画像変換法(I2I)と比較して、競争力のある結果を生成することができる。
論文 参考訳(メタデータ) (2024-06-17T23:02:20Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。