論文の概要: SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control
- arxiv url: http://arxiv.org/abs/2511.09715v1
- Date: Fri, 14 Nov 2025 01:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.434277
- Title: SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control
- Title(参考訳): SliderEdit: 微粒化インストラクション制御による連続画像編集
- Authors: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi,
- Abstract要約: スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。
複数部分の編集命令が与えられたSliderEditは、個々の命令をアンタングルして、グローバルにトレーニングされたスライダとして公開する。
本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
- 参考スコア(独自算出の注目度): 50.76070785417023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.
- Abstract(参考訳): インストラクションベースの画像編集モデルは、最近、マルチインストラクションプロンプトから入力画像への複雑な編集を可能にする、印象的なパフォーマンスを達成した。
しかし、これらのモデルはプロンプト内の各命令を一定の強度で適用し、個々の編集の強度を正確かつ連続的に制御するユーザの能力を制限する。
スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。
複数部分の編集命令が与えられたら、SliderEditは個々の命令をアンタングルして、それぞれをグローバルにトレーニングされたスライダーとして公開し、その強度のスムーズな調整を可能にする。
テキスト・ツー・イメージ生成にスライダ・ベースの属性制御を導入し,個々の属性や概念に対して個別のトレーニングや微調整を必要とする従来の手法とは異なり,本手法では,様々な編集,属性,構成指示を一般化した低ランク適応行列の単一セットを学習する。
これにより、空間的局所性とグローバルな意味的一貫性を保ちながら、個々の編集次元に沿って連続的な補間が可能となる。
FLUX-KontextやQwen-Image-Editなどの最先端画像編集モデルにSliderEditを適用し,編集の可視性,視覚的整合性,ユーザ操作性を大幅に改善した。
我々の知る限り、我々は、命令ベースの画像編集モデルにおいて、連続的、きめ細かい命令制御のためのフレームワークを初めて探求し、提案する。
本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
関連論文リスト
- Group Relative Attention Guidance for Image Editing [38.299491082179905]
Group Relative Attention Guidance (GRAG) は、編集命令に対する入力画像に対するモデルの焦点を変調するシンプルで効果的な方法である。
私たちのコードはhttps://www.littlemisfit.com/little-misfit/GRAG-Image-Editing.comでリリースされます。
論文 参考訳(メタデータ) (2025-10-28T17:22:44Z) - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control [1.0079049259808768]
PromptArtisanはマルチインストラクション画像編集の画期的なアプローチだ。
1回のパスで顕著な結果が得られ、時間を要する反復的な改善の必要性がなくなる。
論文 参考訳(メタデータ) (2025-02-14T16:11:57Z) - UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint [87.20985852686785]
本研究では,教師なし指導に基づく画像編集手法を提案する。
本稿では,編集可逆性制約 (ERC) と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
これにより、地道に編集されたイメージの必要性を回避し、実際のイメージキャプチャペアまたはイメージキャプチャインストラクショントリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。