論文の概要: FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing
- arxiv url: http://arxiv.org/abs/2505.23145v3
- Date: Mon, 14 Jul 2025 20:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 15:29:04.663408
- Title: FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing
- Title(参考訳): FlowAlign: Trajectory-regularized, Inversion-free Flow-based ImageEditing
- Authors: Jeongsol Kim, Yeobin Hong, Jonghyun Park, Jong Chul Ye,
- Abstract要約: FlowAlignは、最適な制御ベースの軌道制御による一貫した画像編集のためのインバージョンフリーなフローベースフレームワークである。
我々の終点正規化は、編集プロンプトとのセマンティックアライメントのバランスと、軌道に沿ったソース画像との構造的整合性を示す。
FlowAlignは、ソース保存と編集の制御性の両方において、既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 47.908940130654535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent inversion-free, flow-based image editing methods such as FlowEdit leverages a pre-trained noise-to-image flow model such as Stable Diffusion 3, enabling text-driven manipulation by solving an ordinary differential equation (ODE). While the lack of exact latent inversion is a core advantage of these methods, it often results in unstable editing trajectories and poor source consistency. To address this limitation, we propose {\em FlowAlign}, a novel inversion-free flow-based framework for consistent image editing with optimal control-based trajectory control. Specifically, FlowAlign introduces source similarity at the terminal point as a regularization term to promote smoother and more consistent trajectories during the editing process. Notably, our terminal point regularization is shown to explicitly balance semantic alignment with the edit prompt and structural consistency with the source image along the trajectory. Furthermore, FlowAlign naturally supports reverse editing by simply reversing the ODE trajectory, highliting the reversible and consistent nature of the transformation. Extensive experiments demonstrate that FlowAlign outperforms existing methods in both source preservation and editing controllability.
- Abstract(参考訳): 近年のインバージョンフリーなフローベース画像編集手法であるFlowEditでは、Stable Diffusion 3のような事前訓練されたノイズ対イメージフローモデルを活用し、通常の微分方程式(ODE)を解くことでテキスト駆動の操作を可能にする。
正確な潜伏反転の欠如はこれらの手法のコア・アドバンテージであるが、しばしば不安定な編集軌道とソースの整合性が低下する。
この制限に対処するために、最適な制御に基づくトラジェクトリ制御による一貫した画像編集のための新しいインバージョンフリーなフローベースフレームワークである {\em FlowAlign} を提案する。
具体的には、FlowAlignは、編集プロセス中によりスムーズで一貫性のある軌道を促進するために、終点におけるソースの類似性を正規化用語として導入する。
特に、我々の端末点規則化は、編集プロンプトとのセマンティックアライメントと、軌道に沿ったソース画像との構造的整合を明示的にバランスさせることが示される。
さらに、FlowAlignは、ODE軌道を単純に反転させることで、変換の可逆性と一貫性のある性質を高くすることで、リバース編集を自然にサポートする。
大規模な実験では、FlowAlignはソースの保存性と編集性の両方において既存のメソッドよりも優れています。
関連論文リスト
- Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [2.7248421583285265]
FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-05T13:54:40Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models [20.46531356084352]
事前訓練されたテキスト・トゥ・イメージ(T2I)拡散/フローモデルを用いて実際の画像を編集する場合、しばしば画像が対応するノイズマップに逆転する。
本稿では、インバージョンフリー、最適化フリー、モデル非依存のT2Iフローモデルのテキストベースの編集方法であるFlowEditを紹介する。
論文 参考訳(メタデータ) (2024-12-11T18:50:29Z) - Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Rolling Shutter Correction with Intermediate Distortion Flow Estimation [55.59359977619609]
本稿では,グローバルシャッタ(GS)からRSへの歪み流を直接推定することにより,ローリングシャッタ(RS)歪み画像を補正することを提案する。
既存の手法は通常、RSからGSへの非歪流を用いて補正を行う。
本稿では,歪み流を直接推定し,後方ワープ操作でRS像を補正する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:40:54Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。