論文の概要: GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration
- arxiv url: http://arxiv.org/abs/2605.31039v2
- Date: Wed, 03 Jun 2026 06:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 13:59:43.520058
- Title: GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration
- Title(参考訳): GGT-100K: 一般化可能な実世界の画像復元のための生成基盤
- Authors: Xiangtao Kong, Jixin Zhao, Lingchen Sun, Rongyuan Wu, Lei Zhang,
- Abstract要約: 実世界の低品質(LQ)画像から高品質(HQ)ターゲットを生成するために,GGT(Generative Ground Truth)を提案する。
VLMをベースとした適応的プロンプトを持つナノバナナ-2は、知覚的にリアルでコンテンツに忠実なHQターゲットを合成する能力が最も高い。
GGT-100Kは103,707個のトレーニングペアで構成され,多様なシーンと複雑な実世界の劣化をカバーしたLQ-HQペアデータセットである。
- 参考スコア(独自算出の注目度): 17.508896816491447
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-world image restoration (IR) is bottlenecked by the scarcity of high-quality paired training data. Synthetic datasets are abundant but often fail to model real-world degradations, while real-world paired datasets are expensive and difficult to capture. As a result, IR models trained on these datasets show limited generalization in real-world scenarios. In this work, we propose Generative Ground Truth (GGT) by using generative multimodal foundation models (MFMs) to produce high-quality (HQ) targets from real-world low-quality (LQ) images. We first conduct a systematic evaluation of nine state-of-the-art MFMs, including Nano-Banana-2 and GPT-Image-2, on images of various scenes and degradation types. The results demonstrate that Nano-Banana-2 with VLM-based adaptive prompting shows the highest capability to synthesize perceptually realistic and content-faithful HQ targets, which can serve as the GGT for the LQ input. We then employ Nano-Banana-2 to build a GGT synthesis pipeline, which involves multi-stage quality control to ensure data reliability, and construct GGT-100K, an LQ-HQ paired dataset comprising 103,707 training pairs and covering diverse scenes and complex real-world degradations. A test set of 500 image pairs is also established. Extensive experiments show that GGT-100K consistently improves the real-world generalization of a wide range of IR models, with particularly strong benefits for finetuning generative models for IR tasks. Our results suggest that MFMs can serve as practical tools for restoration-oriented data generation, and GGT-100K is a useful resource to expand the generalization boundaries of real-world IR models.
- Abstract(参考訳): 実世界の画像復元(IR)は、高品質なペアリングトレーニングデータの不足によってボトルネックとなる。
合成データセットは豊富だが、現実の劣化をモデル化できないことが多い。
その結果、これらのデータセットでトレーニングされたIRモデルは、現実世界のシナリオにおいて限定的な一般化を示す。
本研究では、生成的マルチモーダル基礎モデル(MFM)を用いて、現実の低品質(LQ)画像から高品質(HQ)ターゲットを生成することにより、GGT(Generative Ground Truth)を提案する。
まず,Nano-Banana-2 や GPT-Image-2 を含む9種類の最先端 MFM を,様々なシーンや劣化のイメージ上で体系的に評価する。
以上の結果から,VLMをベースとした適応プロンプトを用いたナノバナナ-2は,LQ入力のGGTとして機能する,知覚的にリアルでコンテンツに忠実なHQターゲットを合成する能力が最も高いことを示した。
次に、Nano-Banana-2を用いてGGT合成パイプラインを構築し、データ信頼性を確保するための多段階品質制御と、103,707個のトレーニングペアからなるLQ-HQペアデータセットGGT-100Kの構築を行い、多様なシーンと複雑な現実世界の劣化をカバーした。
500枚の画像対のテストセットも確立されている。
大規模な実験により、GGT-100Kは広範囲のIRモデルの現実の一般化を一貫して改善し、特にIRタスクのための生成モデルの微調整に強い利点があることが示された。
GGT-100Kは実世界のIRモデルの一般化境界を広げるために有用な資源である。
関連論文リスト
- FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution [87.57784204422218]
人間のフィードバックによる強化学習は、人間の好みを調整する報酬モデルによって導かれる画像生成分野で有効であることが証明されている。
本稿では, アンコーダ・デコーダアーキテクチャに基づく細粒度パーセプ・リワードモデル(FinPercep-RM)を提案する。
グローバルな品質スコアを提供する一方で、局所的な欠陥を空間的に局所化し定量化する知覚的劣化マップも生成する。
論文 参考訳(メタデータ) (2025-12-27T16:55:21Z) - Digital Elevation Model Estimation from RGB Satellite Imagery using Generative Deep Learning [1.0207955314209534]
本研究では,生成的深層学習を用いて,自由に利用可能なRGB衛星画像からDEMを生成する手法を提案する。
ランドサット衛星画像とNASAのSRTMデジタル高度データを用いて,12KのRGB-DEMペアからなるグローバルデータセットを開発した。
独自の前処理パイプラインが実装され、高品質でクラウドフリーな領域を選択し、ランドサット画像から正規化されたRGBコンポジットを集約した。
論文 参考訳(メタデータ) (2025-11-26T23:50:00Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation [83.72561905487447]
本稿では,新しいグラフ基盤モデル (GFM) である GFM-RAG について紹介する。
GFM-RAGは、複雑なクエリ-知識関係をキャプチャするグラフ構造を理由とする、革新的なグラフニューラルネットワークによって実現されている。
効率とニューラルスケーリング法則との整合性を維持しつつ、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-03T07:04:29Z) - T-GMSI: A transformer-based generative model for spatial interpolation under sparse measurements [1.0931557410591526]
空間補間のためのトランスフォーマーベース生成モデル (T-GMSI) を提案する。
T-GMSIは、従来の畳み込みベースの手法をViTに置き換えて特徴抽出とDEMを行い、特徴認識損失関数を組み込んで精度を高める。
T-GMSIは、70%以上の幅を持つデータセットから高品質な標高面を生成するのに優れ、微調整なしで様々な風景を横断する強い伝達性を示す。
論文 参考訳(メタデータ) (2024-12-13T06:01:39Z) - Generative AI-based Pipeline Architecture for Increasing Training Efficiency in Intelligent Weed Control Systems [0.0]
本研究は,知的雑草制御のための深層学習に基づく物体検出モデルを改善するために,合成画像を生成する新しいアプローチを提案する。
我々のGenAIベースの画像生成パイプラインは、ゼロショットドメイン適応のためのSegment Anything Model(SAM)と、テキストから画像への安定拡散モデルを統合する。
我々は、これらの合成データセットを軽量YOLOモデルを用いて評価し、mAP50とmAP50-95スコアを用いてデータ効率を測定した。
論文 参考訳(メタデータ) (2024-11-01T12:58:27Z) - Towards Realistic Data Generation for Real-World Super-Resolution [58.99206459754721]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。