論文の概要: BlazeEdit: Generalist Image Editing on Mobile Devices with Image-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.28067v1
- Date: Wed, 27 May 2026 07:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.840077
- Title: BlazeEdit: Generalist Image Editing on Mobile Devices with Image-to-Image Diffusion Models
- Title(参考訳): BlazeEdit: 画像と画像の拡散モデルによるモバイルデバイス上の一般画像編集
- Authors: Fei Deng, Yanwu Xu, Zhipeng Bao, Zhixing Zhang, Haolin Jia, Karthik Raveendran, Jianing Wei,
- Abstract要約: BlazeEditは、デバイス上でのデプロイメントに適した、高効率で汎用的な画像から画像への拡散モデルである。
BlazeEditは、競合する生成品質を維持しながら、ダウンロードサイズとメモリオーバーヘッドを大幅に削減する。
Pixel 10では290msで完全な推論パスを完了し、シームレスでプライバシーを保ち、ライトニングファスト体験を実現しています。
- 参考スコア(独自算出の注目度): 13.439538133009018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable generation quality of modern diffusion models often comes at the cost of massive parameter counts, which necessitate server-side inference with significant computational costs and potential privacy risks. Consequently, there is growing momentum toward developing efficient on-device alternatives. While recent efforts have optimized text-to-image models for mobile hardware, they remain relatively bulky, typically ranging from 0.5B to 1B parameters. We present BlazeEdit, a highly efficient, generalist image-to-image diffusion model tailored for on-device deployment. By identifying that many practical image editing tasks do not require text-based guidance, we eliminate the text-conditioning components and develop a multi-task architecture that consolidates object removal, outpainting, tone correction, relighting, and sticker generation into a single, compact model of only 195M parameters. BlazeEdit achieves a substantial reduction in download size and memory overhead while maintaining competitive generation quality. It completes a full inference pass in just 290ms on a Pixel 10, delivering a seamless, privacy-preserving, and lightning-fast experience for generalist image editing on the edge.
- Abstract(参考訳): 現代の拡散モデルの顕著な生成品質は、大きなパラメータカウントのコストが伴うことが多く、サーバ側の推論にかなりの計算コストと潜在的なプライバシーリスクが伴う。
その結果、デバイス上の効率的な代替品の開発に向けた勢いが増している。
最近の取り組みでは、モバイルハードウェア向けにテキスト・ツー・イメージモデルに最適化されているが、通常は0.5Bから1Bのパラメータで、比較的大きめである。
デバイス上でのデプロイメントに適した,高効率で汎用的なイメージ・ツー・イメージ拡散モデルであるBlazeEditを提案する。
多くの実用的な画像編集タスクがテキストベースのガイダンスを必要としないことを特定することで、テキストコンディショニングコンポーネントを排除し、オブジェクト除去、アウトペイント、トーン修正、リライト、ステッカー生成をたった195Mパラメータの単一コンパクトモデルに集約するマルチタスクアーキテクチャを開発する。
BlazeEditは、競合する生成品質を維持しながら、ダウンロードサイズとメモリオーバーヘッドを大幅に削減する。
Pixel 10では290msで完全な推論パスを完了し、シームレスでプライバシーを保ち、エッジでの一般画像編集を高速に行うことができます。
関連論文リスト
- DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing [12.515161196847442]
本稿では、T2I生成とテキスト誘導画像編集の両方を単一のネットワークでサポートする、コンパクトなオンデバイス拡散モデル(0.39B)を提案する。
DreamLiteは刈り取られたモバイルU-Netのバックボーン上に構築され、イメージを入力として統一し、生成タスクに(ターゲット | 空白)設定、編集タスクに(ターゲット | ソース)設定を使用する。
高品質のSFTと強化学習の後、DreamLiteは画像生成のためのGenEval (0.72)、画像編集のためのImgEdit (4.11)を達成し、既存のオンデバイスモデルより優れている。
論文 参考訳(メタデータ) (2026-03-30T17:30:25Z) - VIBE: Visual Instruction Based Editor [60.21587335143115]
本稿では,高速な命令に基づく画像編集パイプラインを提案する。
パイプラインはImgEditとGEditベンチマークで評価される。
BF16ではNVIDIA H100で最大2K解像度で編集画像を生成するが、追加の推論最適化や蒸留は行わない。
論文 参考訳(メタデータ) (2026-01-05T16:17:20Z) - PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。
大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。
超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文 参考訳(メタデータ) (2025-10-03T13:56:18Z) - SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - Unified-EGformer: Exposure Guided Lightweight Transformer for Mixed-Exposure Image Enhancement [11.328110218032027]
We introduce the Unified-Exposure Guided Transformer (Unified-EGformer)
提案手法は,局所的な画素レベルの精細化と,色補正のためのグローバルな精細化ブロックと画像ワイド調整を備えた,高度なトランスフォーマーアーキテクチャを基盤として構築されている。
U-EGformerは、メモリフットプリント(ピークメモリ)がわずか$1134 MB (0.1 Millionパラメータ)で、推論時間は95 ms (9.61倍)で、監視や自律ナビゲーションなどのリアルタイムアプリケーションでは実行可能な選択肢である。
論文 参考訳(メタデータ) (2024-07-18T05:18:43Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文 参考訳(メタデータ) (2023-05-17T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。