論文の概要: Bridging the Training-Deployment Gap: Gated Encoding and Multi-Scale Refinement for Efficient Quantization-Aware Image Enhancement
- arxiv url: http://arxiv.org/abs/2604.21743v1
- Date: Thu, 23 Apr 2026 14:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.661068
- Title: Bridging the Training-Deployment Gap: Gated Encoding and Multi-Scale Refinement for Efficient Quantization-Aware Image Enhancement
- Title(参考訳): トレーニング展開ギャップのブリッジ:効率的な量子化対応画像強調のためのゲーテッドエンコーディングとマルチスケールリファインメント
- Authors: Dat To-Thanh, Nghia Nguyen-Trong, Hoang Vo, Hieu Bui-Minh, Tinh-Anh Nguyen-Nhu,
- Abstract要約: 本稿では,モバイル展開に特化して設計された効率的な画像強調モデルを提案する。
提案手法では,エンコーダブロックとゲート付きマルチスケールリファインメントを用いた階層型ネットワークアーキテクチャを用いて,きめ細かい視覚的特徴の保存を行う。
本稿では、QAT(Quantization-Aware Training)を取り入れ、トレーニング過程における低精度表現の効果をシミュレートする。
- 参考スコア(独自算出の注目度): 1.209990810846953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image enhancement models for mobile devices often struggle to balance high output quality with the fast processing speeds required by mobile hardware. While recent deep learning models can enhance low-quality mobile photos into high-quality images, their performance is often degraded when converted to lower-precision formats for actual use on mobile phones. To address this training-deployment mismatch, we propose an efficient image enhancement model designed specifically for mobile deployment. Our approach uses a hierarchical network architecture with gated encoder blocks and multiscale refinement to preserve fine-grained visual features. Moreover, we incorporate Quantization-Aware Training (QAT) to simulate the effects of low-precision representation during the training process. This allows the network to adapt and prevents the typical drop in quality seen with standard post-training quantization (PTQ). Experimental results demonstrate that the proposed method produces high-fidelity visual output while maintaining the low computational overhead needed for practical use on standard mobile devices. The code will be available at https://github.com/GenAI4E/QATIE.git.
- Abstract(参考訳): モバイルデバイス用の画像強調モデルは、モバイルハードウェアが必要とする高速な処理速度と高い出力品質のバランスをとるのに苦労することが多い。
近年のディープラーニングモデルは、高品質なモバイル写真を高品質な画像にすることができるが、携帯電話での実際の使用のために、低精度のフォーマットに変換すると、その性能は劣化することが多い。
このトレーニング/デプロイミスマッチに対処するために,モバイルデプロイメントに特化した効率的な画像強調モデルを提案する。
提案手法では, 階層型ネットワークアーキテクチャとゲートエンコーダブロック, マルチスケールリファインメントを用いて, きめ細かい視覚的特徴の保存を行う。
さらに、QAT(Quantization-Aware Training)を導入し、トレーニング過程における低精度表現の効果をシミュレートする。
これにより、ネットワークが適応し、標準的なトレーニング後の量子化(PTQ)で見られる品質の典型的な低下を防ぐことができる。
実験により,提案手法は,標準モバイルデバイス上での実用化に必要な計算オーバーヘッドを低く抑えながら,高忠実度な視覚出力を実現することを示した。
コードはhttps://github.com/GenAI4E/QATIE.gitで入手できる。
関連論文リスト
- Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Lightweight Adaptive Feature De-drifting for Compressed Image
Classification [10.265991649449507]
高品質な画像で訓練された高レベルの視覚モデルは、圧縮された画像を扱う際に性能劣化に悩まされる。
ビジュアルアーティファクトを扱うために、さまざまな学習ベースのJPEGアーティファクト除去手法が提案されている。
本稿では,プレトレーニング済み画像分類モデルの性能向上を図るために,新しい軽量AFDモジュールを提案する。
論文 参考訳(メタデータ) (2024-01-03T13:03:44Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - MOFA: A Model Simplification Roadmap for Image Restoration on Mobile
Devices [17.54747506334433]
本稿では,展開前の画像復元モデルをさらに高速化するロードマップを提案する。
提案手法は,PSNRとSSIMを増大させながら,ランタイムを最大13%削減し,パラメータ数を最大23%削減する。
論文 参考訳(メタデータ) (2023-08-24T01:29:15Z) - Migrating Face Swap to Mobile Devices: A lightweight Framework and A
Supervised Training Solution [7.572886749166295]
MobileFSGANは、顔スワップ用の新しい軽量なGANで、競合性能を達成しつつ、はるかに少ないパラメータでモバイルデバイスで実行できる。
軽量エンコーダ・デコーダ構造は、特に画像合成タスクのために設計されており、10.2MBしかなく、モバイルデバイス上でリアルタイムに動作させることができる。
論文 参考訳(メタデータ) (2022-04-13T05:35:11Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。