論文の概要: Bayesian Image Reconstruction using Deep Generative Models
- arxiv url: http://arxiv.org/abs/2012.04567v3
- Date: Sun, 21 Feb 2021 21:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 03:03:06.957788
- Title: Bayesian Image Reconstruction using Deep Generative Models
- Title(参考訳): 深部生成モデルを用いたベイズ画像再構成
- Authors: Razvan V Marinescu, Daniel Moyer, Polina Golland
- Abstract要約: 本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
- 参考スコア(独自算出の注目度): 7.012708932320081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are commonly trained end-to-end and in a supervised
setting, using paired (input, output) data. Classical examples include recent
super-resolution methods that train on pairs of (low-resolution,
high-resolution) images. However, these end-to-end approaches require
re-training every time there is a distribution shift in the inputs (e.g., night
images vs daylight) or relevant latent variables (e.g., camera blur or hand
motion). In this work, we leverage state-of-the-art (SOTA) generative models
(here StyleGAN2) for building powerful image priors, which enable application
of Bayes' theorem for many downstream reconstruction tasks. Our method, called
Bayesian Reconstruction through Generative Models (BRGM), uses a single
pre-trained generator model to solve different image restoration tasks, i.e.,
super-resolution and in-painting, by combining it with different forward
corruption models. We demonstrate BRGM on three large, yet diverse, datasets
that enable us to build powerful priors: (i) 60,000 images from the Flick Faces
High Quality dataset (ii) 240,000 chest X-rays from MIMIC III and (iii) a
combined collection of 5 brain MRI datasets with 7,329 scans. Across all three
datasets and without any dataset-specific hyperparameter tuning, our approach
yields state-of-the-art performance on super-resolution, particularly at
low-resolution levels, as well as inpainting, compared to state-of-the-art
methods that are specific to each reconstruction task. Our source code and all
pre-trained models are available online:
https://razvanmarinescu.github.io/brgm/.
- Abstract(参考訳): 機械学習モデルは、ペア(入力、出力)データを使用して、エンドツーエンドおよび教師付き設定で一般的に訓練される。
古典的な例としては、(低解像度、高解像度)画像のペアでトレーニングする最近のスーパーレゾリューション法がある。
しかしながら、これらのエンドツーエンドアプローチは、入力(例えば、夜間画像と日光)や関連する潜伏変数(例えば、カメラのぼやけや手の動き)の分布シフトがある度に再トレーニングする必要がある。
本研究では,最先端(sota)生成モデル(以下stylegan2)を強力な画像前駆的手法として活用し,ベイズの定理を多くの下流復元タスクに適用する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,画像復元作業,すなわち超解像およびインペイントを,異なる前方破壊モデルと組み合わせることで解く。
i) Flick Faces High Qualityのデータセット(ii) MIMIC IIIの240,000個の胸部X線、(iii)脳MRIの5つのデータセットと7,329個のスキャンを組み合わせた3つの大きな、多種多様なデータセットについて、BRGMをデモした。
3つのデータセットにまたがって,データセット固有のハイパーパラメータチューニングがなければ,各再構築作業に特有の最先端手法と比較して,特に低解像度レベルでの最先端のパフォーマンスが得られます。
私たちのソースコードと事前訓練済みのモデルはすべてオンラインで利用可能です。
関連論文リスト
- EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。
アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。
我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。
我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:16:35Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。