論文の概要: MILO: A Lightweight Perceptual Quality Metric for Image and Latent-Space Optimization
- arxiv url: http://arxiv.org/abs/2509.01411v1
- Date: Mon, 01 Sep 2025 12:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.680312
- Title: MILO: A Lightweight Perceptual Quality Metric for Image and Latent-Space Optimization
- Title(参考訳): MILO:画像と遅延空間最適化のための軽量な知覚品質指標
- Authors: Uğur Çoğalan, Mojtaba Bemana, Karol Myszkowski, Hans-Peter Seidel, Colin Groth,
- Abstract要約: フルリファレンス画像品質評価(FR-IQA)のための軽量・マルチスケール・知覚メトリックMILOを提案する。
コンパクトなアーキテクチャにもかかわらず、MILOは標準のFR-IQAベンチマークで既存のメトリクスを上回り、リアルタイムアプリケーションに適した高速推論を提供する。
安定拡散におけるVAEエンコーダの潜時表現にMILOでモデル化された空間マスキングを適用すると、効率よく知覚的に整合した最適化が可能となることを示す。
- 参考スコア(独自算出の注目度): 11.748693494376468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MILO (Metric for Image- and Latent-space Optimization), a lightweight, multiscale, perceptual metric for full-reference image quality assessment (FR-IQA). MILO is trained using pseudo-MOS (Mean Opinion Score) supervision, in which reproducible distortions are applied to diverse images and scored via an ensemble of recent quality metrics that account for visual masking effects. This approach enables accurate learning without requiring large-scale human-labeled datasets. Despite its compact architecture, MILO outperforms existing metrics across standard FR-IQA benchmarks and offers fast inference suitable for real-time applications. Beyond quality prediction, we demonstrate the utility of MILO as a perceptual loss in both image and latent domains. In particular, we show that spatial masking modeled by MILO, when applied to latent representations from a VAE encoder within Stable Diffusion, enables efficient and perceptually aligned optimization. By combining spatial masking with a curriculum learning strategy, we first process perceptually less relevant regions before progressively shifting the optimization to more visually distorted areas. This strategy leads to significantly improved performance in tasks like denoising, super-resolution, and face restoration, while also reducing computational overhead. MILO thus functions as both a state-of-the-art image quality metric and as a practical tool for perceptual optimization in generative pipelines.
- Abstract(参考訳): 提案するMILO(Metric for Image- and Latent-space Optimization)は,フル参照画像品質評価(FR-IQA)のための軽量,マルチスケール,知覚的指標である。
MILOは擬似MOS(Mean Opinion Score)監視を用いて訓練され、再現可能な歪みを様々な画像に適用し、視覚マスキング効果を考慮に入れた最近の品質指標のアンサンブルによってスコア付けされる。
このアプローチは、大規模な人ラベルデータセットを必要とせずに、正確な学習を可能にする。
コンパクトなアーキテクチャにもかかわらず、MILOは標準のFR-IQAベンチマークで既存のメトリクスを上回り、リアルタイムアプリケーションに適した高速な推論を提供する。
品質予測以外にも,画像領域と潜伏領域の両方においてMILOが知覚的損失として有効であることを示す。
特に,MILOによってモデル化された空間マスキングが,安定拡散におけるVAEエンコーダの潜在表現に適用された場合,効率的かつ知覚的に整合した最適化を実現することを示す。
空間マスキングとカリキュラム学習の戦略を組み合わせることで、我々はまず、より視覚的に歪んだ領域に最適化を段階的にシフトする前に、知覚的にあまり関係のない領域を処理します。
この戦略は、復調、超解像、顔の復元といったタスクのパフォーマンスを著しく向上させ、計算オーバーヘッドを低減させる。
そのため、MILOは最先端の画像品質指標として機能し、生成パイプラインにおける知覚的最適化の実用的なツールとして機能する。
関連論文リスト
- IM-LUT: Interpolation Mixing Look-Up Tables for Image Super-Resolution [21.982964666527646]
ルックアップテーブル(LUT)ベースのアプローチは、その効率と性能から関心を集めている。
既存のAISR技術は暗黙の神経表現を用いており、計算コストとメモリ要求がかなり高い。
本稿では,ASISR を動作させる新しいフレームワークである Interpolation Mixing LUT (IM-LUT) を提案する。
論文 参考訳(メタデータ) (2025-07-14T05:02:57Z) - MambaIC: State Space Models for High-Performance Learned Image Compression [40.155314987485376]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。
状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。
そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-16T11:32:34Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文 参考訳(メタデータ) (2024-01-14T10:30:32Z) - AdaSfM: From Coarse Global to Fine Incremental Adaptive Structure from
Motion [48.835456049755166]
AdaSfMは粗粒度適応型SfMアプローチであり、大規模かつ挑戦的なデータセットにスケーラブルである。
当社のアプローチはまず,低コストセンサによる計測を利用して,ビューグラフの信頼性を向上させる,粗大なグローバルSfMを実現する。
本手法では,全局所再構成をグローバルSfMの座標フレームに整合させるため,しきい値適応戦略を用いる。
論文 参考訳(メタデータ) (2023-01-28T09:06:50Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。