論文の概要: TurboFill: Adapting Few-step Text-to-image Model for Fast Image Inpainting
- arxiv url: http://arxiv.org/abs/2504.00996v1
- Date: Tue, 01 Apr 2025 17:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:46.213289
- Title: TurboFill: Adapting Few-step Text-to-image Model for Fast Image Inpainting
- Title(参考訳): TurboFill: 高速画像インペインティングのための数ステップのテキスト・ツー・イメージモデル
- Authors: Liangbin Xie, Daniil Pakhomov, Zhonghao Wang, Zongze Wu, Ziyan Chen, Yuqian Zhou, Haitian Zheng, Zhifei Zhang, Zhe Lin, Jiantao Zhou, Chao Dong,
- Abstract要約: TurboFillは、高速な画像インペイントモデルであり、高品質で効率的なインペイントのためのインペイントアダプタを備えた、数ステップのテキスト-画像拡散モデルを強化する。
我々は,新しい3段階の対角訓練手法を用いて,数ステップの蒸留テキスト・ツー・イメージ・モデルであるDMD2の塗布アダプタを訓練することで,これを克服する。
実験の結果,TurboFillはマルチステップのBushNetと数ステップのインペインティング手法の両方に優れており,ハイパフォーマンスなインペインティングタスクのための新しいベンチマークが設定されている。
- 参考スコア(独自算出の注目度): 51.015989674456364
- License:
- Abstract: This paper introduces TurboFill, a fast image inpainting model that enhances a few-step text-to-image diffusion model with an inpainting adapter for high-quality and efficient inpainting. While standard diffusion models generate high-quality results, they incur high computational costs. We overcome this by training an inpainting adapter on a few-step distilled text-to-image model, DMD2, using a novel 3-step adversarial training scheme to ensure realistic, structurally consistent, and visually harmonious inpainted regions. To evaluate TurboFill, we propose two benchmarks: DilationBench, which tests performance across mask sizes, and HumanBench, based on human feedback for complex prompts. Experiments show that TurboFill outperforms both multi-step BrushNet and few-step inpainting methods, setting a new benchmark for high-performance inpainting tasks. Our project page: https://liangbinxie.github.io/projects/TurboFill/
- Abstract(参考訳): 本稿では,高速な画像インペイントモデルであるTurboFillについて紹介する。
標準拡散モデルは高品質な結果をもたらすが、計算コストが高い。
そこで我々は,数段階の蒸留テキスト・ツー・イメージ・モデルであるDMD2を用いて,現実的で構造的に整合性があり,視覚的に調和した塗装領域を確保するために,新しい3段階の対角トレーニングスキームを用いて,インペイントアダプタを訓練することでこれを克服する。
TurboFillを評価するために、マスクサイズで性能をテストするDilationBenchと、複雑なプロンプトに対する人間のフィードバックに基づくHumanBenchの2つのベンチマークを提案する。
実験の結果,TurboFillはマルチステップのBushNetと数ステップのインペインティング手法の両方に優れており,ハイパフォーマンスなインペインティングタスクのための新しいベンチマークが設定されている。
プロジェクトページ:https://liangbinxie.github.io/projects/TurboFill/
関連論文リスト
- Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation [12.34529497235534]
Show-oは、テキスト・ツー・イメージと画像・ツー・テキスト生成のためのマルチモーダル理解モデルである。
本稿では,Show-oと他のアプローチのギャップを埋めるため,Show-o Turboを提案する。
Show-o Turboは1.5倍のスピードアップで性能が大幅に低下する。
論文 参考訳(メタデータ) (2025-02-08T02:52:25Z) - Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework [3.7953598825170753]
カンディンスキー3は潜伏拡散に基づく新しいT2Iモデルであり、高い品質と光リアリズムを達成する。
各種アプリケーションのためのベースT2Iモデルを拡張し,多機能生成システムを構築する。
人による評価では、Kandinsky 3はオープンソース生成システムの中で最高品質のスコアの1つを示している。
論文 参考訳(メタデータ) (2024-10-28T14:22:08Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Repaint123: Fast and High-quality One Image to 3D Generation with
Progressive Controllable 2D Repainting [16.957766297050707]
マルチビューバイアスを緩和し,テクスチャ劣化を緩和し,生成プロセスを高速化するRepaint123を提案する。
画像品質を向上させるために、重なり合う領域に対する可視性を考慮した適応的再塗装強度を提案する。
提案手法は,スクラッチから2分で高画質な3Dコンテンツを多視点整合性,微妙なテクスチャで生成する能力に優れる。
論文 参考訳(メタデータ) (2023-12-20T18:51:02Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Learning Sparse Masks for Diffusion-based Image Inpainting [10.633099921979674]
拡散ベースの塗布はスパースデータから画像の再構成に強力なツールである。
我々は高効率な適応マスク生成モデルを提供する。
実験により,我々のモデルは最大4桁の加速度で競争品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-06T10:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。