Fugu-MT 論文翻訳(概要): Enhancing Diffusion Models with 3D Perspective Geometry Constraints

論文の概要: Enhancing Diffusion Models with 3D Perspective Geometry Constraints

arxiv url: http://arxiv.org/abs/2312.00944v1
Date: Fri, 1 Dec 2023 21:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 20:03:53.492402
Title: Enhancing Diffusion Models with 3D Perspective Geometry Constraints
Title（参考訳）: 3次元幾何学制約付き拡散モデルの構築
Authors: Rishi Upadhyay, Howard Zhang, Yunhao Ba, Ethan Yang, Blake Gella, Sicheng Jiang, Alex Wong, Achuta Kadambi
Abstract要約: 本稿では、視点精度を向上させるために、生成モデルのトレーニングプロセスに新しい幾何学的制約を導入する。この制約でトレーニングされたモデルの出力は、どちらもよりリアルに見え、生成した画像に基づいてトレーニングされた下流モデルの性能が向上することを示す。
参考スコア（独自算出の注目度）: 10.21800236402905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While perspective is a well-studied topic in art, it is generally taken for granted in images. However, for the recent wave of high-quality image synthesis methods such as latent diffusion models, perspective accuracy is not an explicit requirement. Since these methods are capable of outputting a wide gamut of possible images, it is difficult for these synthesized images to adhere to the principles of linear perspective. We introduce a novel geometric constraint in the training process of generative models to enforce perspective accuracy. We show that outputs of models trained with this constraint both appear more realistic and improve performance of downstream models trained on generated images. Subjective human trials show that images generated with latent diffusion models trained with our constraint are preferred over images from the Stable Diffusion V2 model 70% of the time. SOTA monocular depth estimation models such as DPT and PixelFormer, fine-tuned on our images, outperform the original models trained on real images by up to 7.03% in RMSE and 19.3% in SqRel on the KITTI test set for zero-shot transfer.
Abstract（参考訳）: パースペクティブは芸術においてよく研究されているトピックであるが、一般的には画像で認められている。しかし、潜時拡散モデルのような最近の高品質な画像合成法では、視線精度は明示的な要件ではない。これらの手法は広い範囲の可能な画像を出力することができるため、これらの合成画像が線形視点の原理に従うことは困難である。本稿では,生成モデルの学習過程において新たな幾何学的制約を導入し,視点の精度を強制する。この制約でトレーニングされたモデルの出力は、どちらもよりリアルに見え、生成した画像に基づいてトレーニングされた下流モデルの性能が向上することを示す。主観的人間実験では, 遅延拡散モデルを用いて生成した画像が, 安定拡散v2モデルから得られた画像よりも70%好まれることが示された。 DPTやPixelFormerのようなSOTA単眼深度推定モデルでは、実際の画像で訓練されたオリジナルのモデルをRMSEで7.03%、ゼロショット転送のためにKITTIでSqRelで19.3%上回っている。

関連論文リスト

Geometric Consistency Refinement for Single Image Novel View Synthesis via Test-Time Adaptation of Diffusion Models [11.642407092687177]
単一画像NVSに対する拡散モデルにより生成された画像の幾何的正当性を改善する手法を提案する。画像マッチングとエピポーラ制約に基づいて損失関数を定式化し,拡散サンプリングプロセスにおける開始雑音を最適化する。本手法は,拡散モデルの訓練データや微調整を必要としない。
論文参考訳（メタデータ） (2025-04-11T08:28:41Z)
OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [20.652907645817713]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文参考訳（メタデータ） (2024-12-12T17:14:58Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T11:49:39Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。 SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文参考訳（メタデータ） (2024-09-23T00:51:47Z)
YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文参考訳（メタデータ） (2024-04-08T16:51:19Z)
Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-20T08:10:43Z)
Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文参考訳（メタデータ） (2023-12-20T18:27:53Z)
Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文参考訳（メタデータ） (2023-03-31T09:03:18Z)
HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文参考訳（メタデータ） (2023-03-29T07:35:56Z)
Image Completion via Inference in Deep Generative Models [16.99337751292915]
画像生成モデルにおける償却推論の観点から画像完成を検討する。 CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。
論文参考訳（メタデータ） (2021-02-24T02:59:43Z)
Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文参考訳（メタデータ） (2020-06-16T09:17:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。