論文の概要: SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback
- arxiv url: http://arxiv.org/abs/2504.12833v2
- Date: Tue, 12 Aug 2025 00:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 18:56:18.565193
- Title: SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback
- Title(参考訳): SPIE:AIフィードバックによる画像編集拡散モデルの意味的・構造的後評価
- Authors: Elior Benarous, Yilun Du, Heng Yang,
- Abstract要約: SPIEは、命令ベースの画像編集拡散モデルの意味的および構造的後学習のための新しいアプローチである。
広範な人間のアノテーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。
実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
- 参考スコア(独自算出の注目度): 28.807572302899004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents SPIE: a novel approach for semantic and structural post-training of instruction-based image editing diffusion models, addressing key challenges in alignment with user prompts and consistency with input images. We introduce an online reinforcement learning framework that aligns the diffusion model with human preferences without relying on extensive human annotations or curating a large dataset. Our method significantly improves the alignment with instructions and realism in two ways. First, SPIE captures fine nuances in the desired edit by leveraging a visual prompt, enabling detailed control over visual edits without lengthy textual prompts. Second, it achieves precise and structurally coherent modifications in complex scenes while maintaining high fidelity in instruction-irrelevant areas. This approach simplifies users' efforts to achieve highly specific edits, requiring only 5 reference images depicting a certain concept for training. Experimental results demonstrate that SPIE can perform intricate edits in complex scenes, after just 10 training steps. Finally, we showcase the versatility of our method by applying it to robotics, where targeted image edits enhance the visual realism of simulated environments, which improves their utility as proxy for real-world settings.
- Abstract(参考訳): 本稿では,命令ベース画像編集拡散モデルの意味的・構造的ポストトレーニングのための新しいアプローチであるSPIEについて述べる。
大規模なアノテーションや大規模なデータセットのキュレーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。
提案手法は2つの方法で命令とリアリズムとの整合性を大幅に改善する。
まず、SPIEは、視覚的なプロンプトを活用することで、所望の編集における微妙なニュアンスをキャプチャし、長いテキストプロンプトなしで視覚的な編集を詳細に制御できる。
第二に、複雑なシーンにおける正確かつ構造的に整合的な修正を達成しつつ、命令非関連領域における高い忠実性を維持する。
このアプローチは、ユーザが高度に特定の編集を行おうとする作業を単純化し、トレーニングのための特定の概念を描写したリファレンスイメージを5つだけ必要とします。
実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
最後に,本手法をロボット工学に適用することにより,シミュレーション環境の視覚的リアリズムを高めることにより,実環境設定のプロキシとしての有用性を向上する。
関連論文リスト
- Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。