論文の概要: Efficient High-Resolution Image Editing with Hallucination-Aware Loss and Adaptive Tiling
- arxiv url: http://arxiv.org/abs/2510.06295v1
- Date: Tue, 07 Oct 2025 12:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.106154
- Title: Efficient High-Resolution Image Editing with Hallucination-Aware Loss and Adaptive Tiling
- Title(参考訳): 幻覚を意識した高分解能画像編集と適応型タイリング
- Authors: Young D. Kwon, Abhinav Mehrotra, Malcolm Chadwick, Alberto Gil Ramos, Sourav Bhattacharya,
- Abstract要約: MobilePicassoは、計算コストとメモリ使用量を最小限に抑えつつ、高解像度で効率的な画像編集を可能にする新しいシステムである。
46名の被験者を対象に行ったユーザスタディにより,MobilePicassoは画像品質を18~48%向上するだけでなく,幻覚を14~51%低減することがわかった。
驚いたことに、MobilePicassoのオンデバイスランタイムは、A100 GPU上で動作するサーバベースの高解像度画像編集モデルよりも高速である。
- 参考スコア(独自算出の注目度): 6.389384409681223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution (4K) image-to-image synthesis has become increasingly important for mobile applications. Existing diffusion models for image editing face significant challenges, in terms of memory and image quality, when deployed on resource-constrained devices. In this paper, we present MobilePicasso, a novel system that enables efficient image editing at high resolutions, while minimising computational cost and memory usage. MobilePicasso comprises three stages: (i) performing image editing at a standard resolution with hallucination-aware loss, (ii) applying latent projection to overcome going to the pixel space, and (iii) upscaling the edited image latent to a higher resolution with adaptive context-preserving tiling. Our user study with 46 participants reveals that MobilePicasso not only improves image quality by 18-48% but reduces hallucinations by 14-51% over existing methods. MobilePicasso demonstrates significantly lower latency, e.g., up to 55.8$\times$ speed-up, yet with a small increase in runtime memory, e.g., a mere 9% increase over prior work. Surprisingly, the on-device runtime of MobilePicasso is observed to be faster than a server-based high-resolution image editing model running on an A100 GPU.
- Abstract(参考訳): 高解像度(4K)画像合成はモバイルアプリケーションにとってますます重要になっている。
既存の画像編集の拡散モデルは、リソース制約のあるデバイスにデプロイする際、メモリと画質の面で重大な課題に直面している。
本稿では,計算コストとメモリ使用量を最小限に抑えつつ,高解像度で効率的な画像編集を可能にする新しいシステムであるMobilePicassoを提案する。
MobilePicassoは3つのステージから構成される。
(i)幻覚を意識した標準解像度で画像編集を行う。
二 画素空間への進路を乗り越えるために潜在射影を適用すること。
3) 編集済み画像を適応的文脈保存タイリングで高分解能にアップスケーリングする。
46名の被験者を対象に行ったユーザ調査の結果,MobilePicassoは画像品質を18~48%向上するだけでなく,幻覚を14~51%低減することがわかった。
MobilePicassoは、例えば、55.8$\times$ Speed-upまでのレイテンシを大幅に低下させるが、実行時のメモリはわずかに増加しており、例えば、以前の作業よりもわずか9%増加している。
驚いたことに、MobilePicassoのオンデバイスランタイムは、A100 GPU上で動作するサーバベースの高解像度画像編集モデルよりも高速である。
関連論文リスト
- Real-Time Under-Display Cameras Image Restoration and HDR on Mobile
Devices [81.61356052916855]
アンダーディスプレイカメラ(UDC)によって撮影された画像は、その前のスクリーンによって劣化する。
画像復元のためのディープラーニング手法は、キャプチャ画像の劣化を著しく低減することができる。
我々は,視覚的UDC画像復元とHDRのための軽量なモデルを提案し,スマートフォン上での様々な手法の性能と実行状況を比較したベンチマークを提供する。
論文 参考訳(メタデータ) (2022-11-25T11:46:57Z) - MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。
提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。
モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文 参考訳(メタデータ) (2022-11-08T17:40:50Z) - Perceptual Image Enhancement for Smartphone Real-Time Applications [60.45737626529091]
本稿では,知覚的画像強調のための軽量ネットワークLPIENetを提案する。
我々のモデルは、ノイズアーティファクト、回折アーティファクト、ぼかし、HDR過剰露光を扱うことができる。
我々のモデルは、中級商用スマートフォンで1秒未満で2K解像度画像を処理することができる。
論文 参考訳(メタデータ) (2022-10-24T19:16:33Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z) - Fast Camera Image Denoising on Mobile GPUs with Deep Learning, Mobile AI
2021 Challenge: Report [64.09439666916465]
最初のMobile AIチャレンジでは、エンドツーエンドのディープラーニングベースの画像記述ソリューションの開発を目標としています。
提案したソリューションは任意のモバイルGPUと完全に互換性があり、480pの解像度画像を40-80msで処理できる。
論文 参考訳(メタデータ) (2021-05-17T13:27:56Z) - Contextual Residual Aggregation for Ultra High-Resolution Image
Inpainting [12.839962012888199]
そこで本稿では,CRA(Contextual Residual Aggregation)機構を提案する。
CRA機構は、コンテキストパッチからの残基の重み付けにより、欠落した内容に対して高周波残基を生成する。
提案手法は,解像度512×512の小型画像に対して学習し,高解像度画像に対する推論を行い,良好な塗装品質を実現する。
論文 参考訳(メタデータ) (2020-05-19T18:55:32Z) - Deploying Image Deblurring across Mobile Devices: A Perspective of
Quality and Latency [11.572636762286775]
携帯型ネットワークアーキテクチャを探索し、モバイルデバイス間で品質と品質のトレードオフを改善する。
本稿では,レイテンシと画質の両方について詳細な解析を行うための総合的な実験と比較を行った。
私たちの知る限りでは、この論文はモバイルデバイス全体にわたるイメージデブラリングタスクのすべてのデプロイ問題に対処する最初の論文です。
論文 参考訳(メタデータ) (2020-04-27T06:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。