論文の概要: F2IDiff: Real-world Image Super-resolution using Feature to Image Diffusion Foundation Model
- arxiv url: http://arxiv.org/abs/2512.24473v1
- Date: Tue, 30 Dec 2025 21:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.496521
- Title: F2IDiff: Real-world Image Super-resolution using Feature to Image Diffusion Foundation Model
- Title(参考訳): F2IDiff:Feature to Image Diffusion Foundation Modelを用いた実世界の超解像
- Authors: Devendra K. Jangid, Ripon K. Saha, Dilshan Godaliyadda, Jing Li, Seok-Jun Lee, Hamid R. Sheikh,
- Abstract要約: 生成AIは、高分解能(HR)と低分解能(LR)のギャップを埋めることができる。
フラッグシップスマートフォンカメラは 生成モデルを採用するのが遅かった 強力な世代は 好ましくない幻覚を引き起こす
低レベルの特徴条件付きFM上に構築されたSISRネットワーク、特にDINOv2機能を導入し、これをF2IDiff Foundation Model(FM)と呼ぶ。
- 参考スコア(独自算出の注目度): 14.884393550161226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of Generative AI, Single Image Super-Resolution (SISR) quality has seen substantial improvement, as the strong priors learned by Text-2-Image Diffusion (T2IDiff) Foundation Models (FM) can bridge the gap between High-Resolution (HR) and Low-Resolution (LR) images. However, flagship smartphone cameras have been slow to adopt generative models because strong generation can lead to undesirable hallucinations. For substantially degraded LR images, as seen in academia, strong generation is required and hallucinations are more tolerable because of the wide gap between LR and HR images. In contrast, in consumer photography, the LR image has substantially higher fidelity, requiring only minimal hallucination-free generation. We hypothesize that generation in SISR is controlled by the stringency and richness of the FM's conditioning feature. First, text features are high level features, which often cannot describe subtle textures in an image. Additionally, Smartphone LR images are at least $12MP$, whereas SISR networks built on T2IDiff FM are designed to perform inference on much smaller images ($<1MP$). As a result, SISR inference has to be performed on small patches, which often cannot be accurately described by text feature. To address these shortcomings, we introduce an SISR network built on a FM with lower-level feature conditioning, specifically DINOv2 features, which we call a Feature-to-Image Diffusion (F2IDiff) Foundation Model (FM). Lower level features provide stricter conditioning while being rich descriptors of even small patches.
- Abstract(参考訳): Text-2- Image Diffusion (T2IDiff) Foundation Models (FM)は、高分解能(HR)と低分解能(LR)のギャップを埋めることができる。
しかし、フラグシップスマートフォンカメラは、強力な世代が好ましくない幻覚を引き起こす可能性があるため、生成モデルを採用するのが遅かった。
実質的に劣化したLR画像は、学界で見られるように、強い生成が必要であり、LR画像とHR画像の間に大きなギャップがあるため、幻覚はより許容可能である。
対照的に、消費者写真では、LR画像の忠実度はかなり高く、幻覚のない生成は最小限である。
我々は、SISRの生成はFMの条件付け機能の寛大さと豊かさによって制御されていると仮定する。
まず、テキスト機能は高レベルな特徴であり、画像の微妙なテクスチャを記述できないことが多い。
さらに、スマートフォンのLR画像は少なくとも$12MP$であり、T2IDiff FM上に構築されたSISRネットワークは、はるかに小さな画像($1MP$)で推論を行うように設計されている。
その結果、SISR推論は小さなパッチで行う必要があり、テキスト機能によって正確に記述できないことが多い。
これらの欠点に対処するために、低レベルの特徴条件付きFM上に構築されたSISRネットワーク、特にDINOv2機能を導入し、これをF2IDiff(Feature-to- Image Diffusion) Foundation Model(FM)と呼ぶ。
低レベルの機能は、小さなパッチのリッチな記述子である一方で、より厳格な条件付けを提供する。
関連論文リスト
- Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。
拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文 参考訳(メタデータ) (2024-10-30T09:14:13Z) - Improving Consistency in Diffusion Models for Image Super-Resolution [28.945663118445037]
拡散法における2種類の矛盾を観測する。
セマンティックとトレーニング-推論の組み合わせを扱うために、ConsisSRを導入します。
本手法は,既存拡散モデルにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRF [50.458896463542494]
DiSR-NeRFは、ビュー一貫性を持つ超解像(SR)NeRFのための拡散誘導フレームワークである。
我々は,NeRFの固有多視点整合性により不整合問題を緩和するイテレーティブ3Dシンクロナイゼーション(I3DS)を提案する。
論文 参考訳(メタデータ) (2024-04-01T03:06:23Z) - XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。
ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。
拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:52:22Z) - Learning Many-to-Many Mapping for Unpaired Real-World Image
Super-resolution and Downscaling [60.80788144261183]
実世界のLR画像とHR画像の双方向多対多マッピングを教師なしで同時に学習するSDFlowと呼ばれる画像ダウンスケーリングとSRモデルを提案する。
実世界の画像SRデータセットによる実験結果から,SDFlowは定量的かつ定性的に,多様な現実的なLRとSRの画像を生成可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-08T01:48:34Z) - Reference-based Image Super-Resolution with Deformable Attention
Transformer [62.71769634254654]
RefSRは、補助参照(Ref)画像を超解像低解像度(LR)画像に活用することを目的としている。
本稿では,複数のスケールを持つ変形可能なアテンション変換器,すなわちDATSRを提案する。
DATSRがベンチマークデータセット上で最先端のパフォーマンスを達成することを示す実験を行った。
論文 参考訳(メタデータ) (2022-07-25T07:07:00Z) - Self-Supervised Learning for Real-World Super-Resolution from Dual
Zoomed Observations [66.09210030518686]
デュアルカメラズーム(SelfDZSR)で観測した実世界のRefSRに対する新しい自己教師型学習手法を提案する。
最初の問題として、よりズームされた(望遠的な)画像は、より少ないズームされた(短焦点)画像のSRをガイドする参照として自然に利用することができる。
2つ目の問題として、セルフDZSRは、短焦点画像のSR結果を得るための深層ネットワークを、望遠画像と同じ解像度で学習する。
論文 参考訳(メタデータ) (2022-03-02T13:30:56Z) - SRDiff: Single Image Super-Resolution with Diffusion Probabilistic
Models [19.17571465274627]
単一の画像スーパーリゾリューション(SISR)は、与えられた低リゾリューション(LR)画像から高解像度(HR)画像を再構成することを目的とする。
新規な単像超解像拡散確率モデル(SRDiff)を提案する。
SRDiffはデータ可能性の変動境界の変種に最適化されており、多様で現実的なSR予測を提供することができる。
論文 参考訳(メタデータ) (2021-04-30T12:31:25Z) - Closed-loop Matters: Dual Regression Networks for Single Image
Super-Resolution [73.86924594746884]
ディープニューラルネットワークは、画像超解像において有望な性能を示した。
これらのネットワークは、低分解能(LR)画像から高分解能(HR)画像への非線形マッピング関数を学習する。
本稿では,可能な関数の空間を削減するために,LRデータに新たな制約を導入することで,二重回帰手法を提案する。
論文 参考訳(メタデータ) (2020-03-16T04:23:42Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。