論文の概要: Multi-modal Datasets for Super-resolution
- arxiv url: http://arxiv.org/abs/2004.05804v1
- Date: Mon, 13 Apr 2020 07:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:30:53.709828
- Title: Multi-modal Datasets for Super-resolution
- Title(参考訳): 超解像のためのマルチモーダルデータセット
- Authors: Haoran Li, Weihong Quan, Meijun Yan, Jin zhang, Xiaoli Gong and Jin
Zhou
- Abstract要約: 超高分解能(OID-RW)のための実世界の白黒写真データセットを提案する。
データセットには82のイメージのグループが含まれており、22の文字タイプと60のランドスケープとアーキテクチャのグループが含まれている。
また,マルチモーダル画像分解データセット(MDD400)を提案する。
- 参考スコア(独自算出の注目度): 12.079245552387361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowdays, most datasets used to train and evaluate super-resolution models are
single-modal simulation datasets. However, due to the variety of image
degradation types in the real world, models trained on single-modal simulation
datasets do not always have good robustness and generalization ability in
different degradation scenarios. Previous work tended to focus only on
true-color images. In contrast, we first proposed real-world black-and-white
old photo datasets for super-resolution (OID-RW), which is constructed using
two methods of manually filling pixels and shooting with different cameras. The
dataset contains 82 groups of images, including 22 groups of character type and
60 groups of landscape and architecture. At the same time, we also propose a
multi-modal degradation dataset (MDD400) to solve the super-resolution
reconstruction in real-life image degradation scenarios. We managed to simulate
the process of generating degraded images by the following four methods:
interpolation algorithm, CNN network, GAN network and capturing videos with
different bit rates. Our experiments demonstrate that not only the models
trained on our dataset have better generalization capability and robustness,
but also the trained images can maintain better edge contours and texture
features.
- Abstract(参考訳): 現在、スーパーレゾリューションモデルのトレーニングや評価に使用されるデータセットのほとんどは、シングルモーダルシミュレーションデータセットである。
しかし、実世界の様々な画像劣化タイプのため、単一モーダルシミュレーションデータセットで訓練されたモデルは、異なる劣化シナリオにおける優れた堅牢性と一般化能力を持つとは限らない。
以前の作業では、真のカラー画像のみに焦点を当てる傾向があった。
対照的に,我々はまず,手作業で画素を満たし,異なるカメラで撮影する2つの方法を用いて,超高解像度(oid-rw)のための実世界の白黒写真データセットを提案した。
データセットには82のイメージグループが含まれており、22のキャラクタタイプと60のランドスケープとアーキテクチャが含まれている。
また,マルチモーダル画像分解データセット(MDD400)を提案する。
補間アルゴリズム, cnnネットワーク, ganネットワーク, 異なるビットレートのビデオ撮影の4つの手法により, 劣化画像の生成過程をシミュレートすることができた。
我々の実験は、データセットでトレーニングされたモデルが、より良い一般化能力と堅牢性を持つだけでなく、訓練された画像がより良いエッジ輪郭とテクスチャ特性を維持することができることを示した。
関連論文リスト
- Community Forensics: Using Thousands of Generators to Train Fake Image Detectors [15.166026536032142]
AI生成画像を検出する上で重要な課題の1つは、これまで目に見えない生成モデルによって作成された画像を見つけることである。
従来よりも大きく,多様である新しいデータセットを提案する。
得られたデータセットには、4803の異なるモデルからサンプリングされた2.7Mイメージが含まれている。
論文 参考訳(メタデータ) (2024-11-06T18:59:41Z) - DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation [46.22939360256696]
我々は、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。
我々の先駆的な貢献であるGenIRは、既存のデータセットの制限を克服するデュアルプロンプト学習パイプラインです。
DreamClear は DiT ベースの画像復元モデルである。テキスト・ツー・イメージ(T2I)拡散モデルの生成先行と,マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して復元を実現する。
論文 参考訳(メタデータ) (2024-10-24T11:57:20Z) - PixelBytes: Catching Unified Representation for Multimodal Generation [0.0]
PixelBytesは、統合マルチモーダル表現学習のためのアプローチである。
我々は,テキスト,音声,動作状態,画素画像の凝集表現への統合について検討する。
我々はPixelBytes PokemonデータセットとOptimal-Controlデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-16T09:20:13Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Towards Real-World Burst Image Super-Resolution: Benchmark and Method [93.73429028287038]
本稿では,複数のフレームから画像の詳細を忠実に再構成する大規模リアルタイムバースト超解像データセットであるRealBSRを確立する。
また,FBAnet(Federated Burst Affinity Network)を導入し,実世界の画像劣化下での画像間の非自明な画素幅の変位について検討する。
論文 参考訳(メタデータ) (2023-09-09T14:11:37Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Exploiting Raw Images for Real-Scene Super-Resolution [105.18021110372133]
本稿では,合成データと実撮影画像とのギャップを埋めるために,実シーンにおける単一画像の超解像化の問題について検討する。
本稿では,デジタルカメラの撮像過程を模倣して,よりリアルなトレーニングデータを生成する手法を提案する。
また、原画像に記録された放射情報を活用するために、2分岐畳み込みニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2021-02-02T16:10:15Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。