論文の概要: COT Flow: Learning Optimal-Transport Image Sampling and Editing by Contrastive Pairs
- arxiv url: http://arxiv.org/abs/2406.12140v1
- Date: Mon, 17 Jun 2024 23:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:28:06.639683
- Title: COT Flow: Learning Optimal-Transport Image Sampling and Editing by Contrastive Pairs
- Title(参考訳): COTフロー: コントラストペアによる最適トランスポート画像サンプリングと編集を学習する
- Authors: Xinrui Zu, Qian Tao,
- Abstract要約: Contrastive Optimal Transport Flow (COT Flow) は、ゼロショット編集の柔軟性を向上し、高速かつ高品質な生成を実現する新しい手法である。
品質の面では、COT Flowは従来の最先端のイメージ・ツー・イメージ(I2I)翻訳法と比較して1ステップで競合結果を生成することができる。
COT Flowは、従来の最先端の未実装画像画像変換法(I2I)と比較して、競争力のある結果を生成することができる。
- 参考スコア(独自算出の注目度): 7.542892664684078
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have demonstrated strong performance in sampling and editing multi-modal data with high generation quality, yet they suffer from the iterative generation process which is computationally expensive and slow. In addition, most methods are constrained to generate data from Gaussian noise, which limits their sampling and editing flexibility. To overcome both disadvantages, we present Contrastive Optimal Transport Flow (COT Flow), a new method that achieves fast and high-quality generation with improved zero-shot editing flexibility compared to previous diffusion models. Benefiting from optimal transport (OT), our method has no limitation on the prior distribution, enabling unpaired image-to-image (I2I) translation and doubling the editable space (at both the start and end of the trajectory) compared to other zero-shot editing methods. In terms of quality, COT Flow can generate competitive results in merely one step compared to previous state-of-the-art unpaired image-to-image (I2I) translation methods. To highlight the advantages of COT Flow through the introduction of OT, we introduce the COT Editor to perform user-guided editing with excellent flexibility and quality. The code will be released at https://github.com/zuxinrui/cot_flow.
- Abstract(参考訳): 拡散モデルは,高次品質のマルチモーダルデータのサンプリング・編集において高い性能を示してきたが,計算コストが高く,遅い反復生成プロセスに悩まされている。
さらに、ほとんどの手法はガウスノイズからデータを生成するよう制約されているため、サンプリングや編集の柔軟性が制限される。
両欠点を克服するために,従来の拡散モデルと比較してゼロショット編集の柔軟性を向上し,高速かつ高品質な生成を実現する新しい手法であるContrastive Optimal Transport Flow (COT Flow)を提案する。
最適トランスポート (OT) から恩恵を受けるため,本手法は事前分布に制限がなく,未ペア画像対像 (I2I) 変換が可能であり,編集可能な空間(軌道の始点と終端の両方)を他のゼロショット編集法と比較して2倍にすることができる。
品質面では、COT Flowは従来の最先端のイメージ・ツー・イメージ(I2I)翻訳法と比較して1ステップで競合結果を生成することができる。
OTの導入によるCOT Flowの利点を強調するため,ユーザガイドによる編集を行うCOTエディタを導入する。
コードはhttps://github.com/zuxinrui/cot_flow.comでリリースされる。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。
その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。
本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation [43.61383132919089]
制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。
DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:40:11Z) - TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing [12.504661526518234]
我々は、編集中のノイズパターンと拡散時間の最適化に焦点をあてたSDベースのTiNO-Editを提案する。
SDの潜在領域で動作する新しい損失関数のセットを提案し、最適化を大幅に高速化する。
本手法は,Textual InversionやDreamBoothなど,SDのバリエーションに容易に適用することができる。
論文 参考訳(メタデータ) (2024-04-17T07:08:38Z) - D-Flow: Differentiating through Flows for Controlled Generation [37.80603174399585]
フローを微分することで生成プロセスを制御するフレームワークであるD-Flowを紹介する。
我々は、ガウス確率パスで訓練された拡散/FMモデルに対して、生成過程を微分することで、データ多様体の勾配を予測できるというキーとなる観察によって、この枠組みを動機付けている。
我々は,画像と音声の逆問題や条件分子生成など,線形および非線形に制御された生成問題に対する枠組みを検証する。
論文 参考訳(メタデータ) (2024-02-21T18:56:03Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。