論文の概要: The Unreasonable Effectiveness of Text Embedding Interpolation for Continuous Image Steering
- arxiv url: http://arxiv.org/abs/2603.17998v1
- Date: Wed, 18 Mar 2026 17:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.872788
- Title: The Unreasonable Effectiveness of Text Embedding Interpolation for Continuous Image Steering
- Title(参考訳): 連続画像ステアリングにおけるテキスト埋め込み補間の有効性
- Authors: Yigit Ekin, Yossi Gandelsman,
- Abstract要約: テキスト条件生成モデルに対するテスト時に連続的かつ制御可能な画像編集のためのトレーニング不要なフレームワークを提案する。
テキスト埋め込み空間における単純なステアリングは、スムーズな編集制御を実現するのに十分である。
私たちのアプローチは、トレーニングベースの代替手段に匹敵するものであり、他のトレーニングフリーメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 18.29130390175963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a training-free framework for continuous and controllable image editing at test time for text-conditioned generative models. In contrast to prior approaches that rely on additional training or manual user intervention, we find that a simple steering in the text-embedding space is sufficient to produce smooth edit control. Given a target concept (e.g., enhancing photorealism or changing facial expression), we use a large language model to automatically construct a small set of debiased contrastive prompt pairs, from which we compute a steering vector in the generator's text-encoder space. We then add this vector directly to the input prompt representation to control generation along the desired semantic axis. To obtain a continuous control, we propose an elastic range search procedure that automatically identifies an effective interval of steering magnitudes, avoiding both under-steering (no-edit) and over-steering (changing other attributes). Adding the scaled versions of the same vector within this interval yields smooth and continuous edits. Since our method modifies only textual representations, it naturally generalizes across text-conditioned modalities, including image and video generation. To quantify the steering continuity, we introduce a new evaluation metric that measures the uniformity of semantic change across edit strengths. We compare the continuous editing behavior across methods and find that, despite its simplicity and lightweight design, our approach is comparable to training-based alternatives, outperforming other training-free methods.
- Abstract(参考訳): テキスト条件生成モデルに対するテスト時に連続的かつ制御可能な画像編集のためのトレーニング不要なフレームワークを提案する。
追加のトレーニングや手作業による介入に依存する従来のアプローチとは対照的に,テキスト埋め込み空間における単純なステアリングは,スムーズな編集制御を実現するのに十分である。
対象概念(例えば、フォトリアリズムの強化や表情の変化など)が与えられた場合、我々は大きな言語モデルを用いて、デバイアス付きコントラスト付きプロンプトペアの小さなセットを自動構築し、ジェネレータのテキストエンコーダ空間におけるステアリングベクトルを計算する。
次に、このベクトルを入力プロンプト表現に直接加算し、所望のセマンティック軸に沿って生成を制御する。
本研究では, 操舵の有効間隔を自動的に識別し, 操舵(非操作)とオーバーステアリング(他属性の変更)の両方を回避する弾性範囲探索手法を提案する。
この間隔内に同じベクトルのスケールバージョンを追加すると、スムーズで連続的な編集が得られる。
本手法はテキスト表現のみを修飾するため,画像生成や映像生成など,テキスト条件付きモーダルを自然に一般化する。
ステアリング継続性を定量化するために,編集強度間の意味変化の均一性を測定する新しい評価指標を導入する。
メソッド間の継続的な編集動作を比較し、そのシンプルさと軽量さにもかかわらず、我々のアプローチはトレーニングベースの代替手段に匹敵するものであり、他のトレーニング不要なメソッドよりも優れています。
関連論文リスト
- Continuous Control of Editing Models via Adaptive-Origin Guidance [27.623081798640907]
拡散に基づく編集モデルは、意味論と画像編集の強力なツールとして登場した。
AdaOr(Adaptive-Origin Guidance、アダオル)は、標準ガイダンスの原点をアイデンティティ条件付き適応原点で調整する手法である。
本手法は画像および映像の編集作業において,現在のスライダベースの編集手法に比べてスムーズで一貫した制御が可能であることを示す。
論文 参考訳(メタデータ) (2026-02-03T18:33:39Z) - Localized Control in Diffusion Models via Latent Vector Prediction [2.4923006485141284]
本稿では,画像のユーザ定義領域を正確に局所的に制御する手法を提案する。
本手法は,局所条件を制御した高品質な画像を効果的に合成する。
論文 参考訳(メタデータ) (2026-02-02T11:47:48Z) - Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。
軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。
本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文 参考訳(メタデータ) (2025-10-09T17:51:03Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。