論文の概要: Edit Transfer: Learning Image Editing via Vision In-Context Relations
- arxiv url: http://arxiv.org/abs/2503.13327v1
- Date: Mon, 17 Mar 2025 16:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:02.605747
- Title: Edit Transfer: Learning Image Editing via Vision In-Context Relations
- Title(参考訳): 編集伝達:視覚内関係による画像編集の学習
- Authors: Lan Chen, Qi Mao, Yuchao Gu, Mike Zheng Shou,
- Abstract要約: モデルが1つのソースターゲットの例から変換を学習し、それを新しいクエリイメージに適用する、新しい設定であるEdit Transferを導入する。
編集した例とクエリ画像を統一された4パネル複合体に配置し、軽量なLoRAファインチューニングを適用する。
42のトレーニングサンプルしか使用していないが、Edit Transferは、さまざまな非厳密なシナリオで最先端のTIEとRIEメソッドを大幅に上回っている。
- 参考スコア(独自算出の注目度): 20.26248827962424
- License:
- Abstract: We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.
- Abstract(参考訳): モデルが1つのソースターゲットの例から変換を学習し、それを新しいクエリイメージに適用する、新しい設定であるEdit Transferを導入する。
テキストベースの手法は、テキストのプロンプトを通じて意味的な操作に優れるが、正確な幾何学的詳細(例えば、ポーズや視点の変化)に苦しむことが多い。
一方、参照ベースの編集はスタイルや外観に重点を置いており、厳密でない変換では失敗する。
ソースとターゲットのペアから編集変換を明示的に学習することで、Edit Transferはテキストのみの参照と外観中心の参照の両方の制限を緩和する。
大規模言語モデルにおける文脈内学習からのインスピレーションを生かして,DiTに基づくテキスト・ツー・イメージモデルに基づく,コンテキスト内学習パラダイムを提案する。
編集された例とクエリ画像を統一された4パネル複合体に配置し、軽量なLoRA微調整を適用して、最小の例から複雑な空間変換をキャプチャする。
42のトレーニングサンプルしか使用していないが、Edit Transferは、多種多様な非厳密なシナリオにおいて最先端のTIEとRIEメソッドを大幅に上回り、少数ショットの視覚的関係学習の有効性を実証している。
関連論文リスト
- Textualize Visual Prompt for Image Editing via Diffusion Bridge [15.696208035498753]
現在の視覚的プロンプト法は、事前訓練されたテキスト誘導画像・画像生成モデルに依存している。
本稿では,画像間の明示的なモデルに依存しない単一のテキスト・ツー・イメージモデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-07T03:33:22Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-04-17T17:42:19Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。