Fugu-MT 論文翻訳(概要): Bayesian Image Reconstruction using Deep Generative Models

論文の概要: Bayesian Image Reconstruction using Deep Generative Models

arxiv url: http://arxiv.org/abs/2012.04567v3
Date: Sun, 21 Feb 2021 21:44:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-17 03:03:06.957788
Title: Bayesian Image Reconstruction using Deep Generative Models
Title（参考訳）: 深部生成モデルを用いたベイズ画像再構成
Authors: Razvan V Marinescu, Daniel Moyer, Polina Golland
Abstract要約: 本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。 BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
参考スコア（独自算出の注目度）: 7.012708932320081
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning models are commonly trained end-to-end and in a supervised setting, using paired (input, output) data. Classical examples include recent super-resolution methods that train on pairs of (low-resolution, high-resolution) images. However, these end-to-end approaches require re-training every time there is a distribution shift in the inputs (e.g., night images vs daylight) or relevant latent variables (e.g., camera blur or hand motion). In this work, we leverage state-of-the-art (SOTA) generative models (here StyleGAN2) for building powerful image priors, which enable application of Bayes' theorem for many downstream reconstruction tasks. Our method, called Bayesian Reconstruction through Generative Models (BRGM), uses a single pre-trained generator model to solve different image restoration tasks, i.e., super-resolution and in-painting, by combining it with different forward corruption models. We demonstrate BRGM on three large, yet diverse, datasets that enable us to build powerful priors: (i) 60,000 images from the Flick Faces High Quality dataset (ii) 240,000 chest X-rays from MIMIC III and (iii) a combined collection of 5 brain MRI datasets with 7,329 scans. Across all three datasets and without any dataset-specific hyperparameter tuning, our approach yields state-of-the-art performance on super-resolution, particularly at low-resolution levels, as well as inpainting, compared to state-of-the-art methods that are specific to each reconstruction task. Our source code and all pre-trained models are available online: https://razvanmarinescu.github.io/brgm/.
Abstract（参考訳）: 機械学習モデルは、ペア(入力、出力)データを使用して、エンドツーエンドおよび教師付き設定で一般的に訓練される。古典的な例としては、(低解像度、高解像度)画像のペアでトレーニングする最近のスーパーレゾリューション法がある。しかしながら、これらのエンドツーエンドアプローチは、入力(例えば、夜間画像と日光)や関連する潜伏変数(例えば、カメラのぼやけや手の動き)の分布シフトがある度に再トレーニングする必要がある。本研究では,最先端(sota)生成モデル(以下stylegan2)を強力な画像前駆的手法として活用し,ベイズの定理を多くの下流復元タスクに適用する。 BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,画像復元作業,すなわち超解像およびインペイントを,異なる前方破壊モデルと組み合わせることで解く。 i) Flick Faces High Qualityのデータセット(ii) MIMIC IIIの240,000個の胸部X線、(iii)脳MRIの5つのデータセットと7,329個のスキャンを組み合わせた3つの大きな、多種多様なデータセットについて、BRGMをデモした。 3つのデータセットにまたがって,データセット固有のハイパーパラメータチューニングがなければ,各再構築作業に特有の最先端手法と比較して,特に低解像度レベルでの最先端のパフォーマンスが得られます。私たちのソースコードと事前訓練済みのモデルはすべてオンラインで利用可能です。

関連論文リスト

RI3D: Few-Shot Gaussian Splatting With Repair and Inpainting Diffusion Priors [13.883695200241524]
RI3Dは拡散モデルのパワーを生かした新しい手法であり、入力画像のスパースセットが与えられた場合、高品質な新規ビューを再構築する。我々の重要な貢献は、ビュー合成プロセスを可視領域を再構築し、行方不明領域を幻覚させる2つのタスクに分けることである。我々は、様々な場面において最先端のアプローチよりも優れた、目に見える領域と欠落する領域の両方で、詳細なテクスチャで結果を生成する。
論文参考訳（メタデータ） (2025-03-13T20:16:58Z)
FOCUS - Multi-View Foot Reconstruction From Synthetically Trained Dense Correspondences [23.644116579294547]
人足再建の具体的な症例について検討する。マルチビューRGB画像からリッチなピクセル単位の幾何学的手がかりを抽出する。本研究は, 現状の再建の質を, 数点の視点で達成できることを実証する。
論文参考訳（メタデータ） (2025-02-10T11:36:45Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文参考訳（メタデータ） (2024-10-30T12:16:35Z)
SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文参考訳（メタデータ） (2024-10-26T00:52:46Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文参考訳（メタデータ） (2023-01-09T18:59:50Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。