論文の概要: NumeriKontrol: Adding Numeric Control to Diffusion Transformers for Instruction-based Image Editing
- arxiv url: http://arxiv.org/abs/2511.23105v1
- Date: Fri, 28 Nov 2025 11:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.879165
- Title: NumeriKontrol: Adding Numeric Control to Diffusion Transformers for Instruction-based Image Editing
- Title(参考訳): NumeriKontrol: インストラクションベースの画像編集のための拡散変換器に数値制御を追加する
- Authors: Zhenyu Xu, Xiaoqi Shen, Haotian Nan, Xinyu Zhang,
- Abstract要約: NumeriKontrolは,共通単位を用いた連続属性値を用いて画像属性を調整可能なフレームワークである。
タスク分離設計により、ゼロセパレートなマルチ条件編集をサポートしています。
高忠実度デジタル一眼レフカメラやデジタル一眼レフカメラなど、信頼性の高い情報源からの正確なトレーニングデータを合成する。
- 参考スコア(独自算出の注目度): 12.728322570816248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing enables intuitive manipulation through natural language commands. However, text instructions alone often lack the precision required for fine-grained control over edit intensity. We introduce NumeriKontrol, a framework that allows users to precisely adjust image attributes using continuous scalar values with common units. NumeriKontrol encodes numeric editing scales via an effective Numeric Adapter and injects them into diffusion models in a plug-and-play manner. Thanks to a task-separated design, our approach supports zero-shot multi-condition editing, allowing users to specify multiple instructions in any order. To provide high-quality supervision, we synthesize precise training data from reliable sources, including high-fidelity rendering engines and DSLR cameras. Our Common Attribute Transform (CAT) dataset covers diverse attribute manipulations with accurate ground-truth scales, enabling NumeriKontrol to function as a simple yet powerful interactive editing studio. Extensive experiments show that NumeriKontrol delivers accurate, continuous, and stable scale control across a wide range of attribute editing scenarios. These contributions advance instruction-based image editing by enabling precise, scalable, and user-controllable image manipulation.
- Abstract(参考訳): インストラクションベースの画像編集は、自然言語コマンドによる直感的な操作を可能にする。
しかし、テキスト命令だけでは、編集強度のきめ細かい制御に必要な精度を欠いていることが多い。
我々はNumeriKontrolというフレームワークを紹介した。これはユーザーが共通の単位で連続スカラー値を用いて画像属性を正確に調整できるフレームワークである。
NumeriKontrolは、有効なNumeric Adapterを通じて数値編集スケールを符号化し、プラグアンドプレイ方式で拡散モデルに注入する。
タスク分離設計により、ゼロショットマルチ条件編集をサポートし、任意の順序で複数の命令を指定できる。
高品質な監視を実現するため,高忠実度レンダリングエンジンやDSLRカメラなど,信頼性の高いソースからの正確なトレーニングデータを合成する。
本誌のCommon Attribute Transform(CAT)データセットは、さまざまな属性操作を正確な地上構造スケールでカバーし、NumeriKontrolをシンプルでパワフルなインタラクティブな編集スタジオとして機能させることができる。
NumeriKontrolは、幅広い属性編集シナリオに対して正確で連続的で安定したスケール制御を提供する。
これらのコントリビューションは、正確でスケーラブルでユーザ制御可能なイメージ操作を可能にすることによって、命令ベースの画像編集を促進する。
関連論文リスト
- SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control [50.76070785417023]
スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。
複数部分の編集命令が与えられたSliderEditは、個々の命令をアンタングルして、グローバルにトレーニングされたスライダとして公開する。
本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
論文 参考訳(メタデータ) (2025-11-12T20:21:37Z) - Group Relative Attention Guidance for Image Editing [38.299491082179905]
Group Relative Attention Guidance (GRAG) は、編集命令に対する入力画像に対するモデルの焦点を変調するシンプルで効果的な方法である。
私たちのコードはhttps://www.littlemisfit.com/little-misfit/GRAG-Image-Editing.comでリリースされます。
論文 参考訳(メタデータ) (2025-10-28T17:22:44Z) - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。
我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。
我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文 参考訳(メタデータ) (2025-05-13T18:24:15Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。