論文の概要: StereoGen: High-quality Stereo Image Generation from a Single Image
- arxiv url: http://arxiv.org/abs/2501.08654v1
- Date: Wed, 15 Jan 2025 08:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:26.441469
- Title: StereoGen: High-quality Stereo Image Generation from a Single Image
- Title(参考訳): StereoGen:1枚の画像から高品質なステレオ画像を生成する
- Authors: Xianqi Wang, Hao Yang, Gangwei Xu, Junda Cheng, Min Lin, Yong Deng, Jinliang Zang, Yurui Chen, Xin Yang,
- Abstract要約: StereoGenは高品質なステレオ画像生成のための新しいパイプラインである。
トレーニング不要な信頼生成と適応的格差選択を提案する。
実験により、パイプライン下でトレーニングされたモデルは、最先端のゼロショット一般化結果が得られることが示された。
- 参考スコア(独自算出の注目度): 17.560148513475387
- License:
- Abstract: State-of-the-art supervised stereo matching methods have achieved amazing results on various benchmarks. However, these data-driven methods suffer from generalization to real-world scenarios due to the lack of real-world annotated data. In this paper, we propose StereoGen, a novel pipeline for high-quality stereo image generation. This pipeline utilizes arbitrary single images as left images and pseudo disparities generated by a monocular depth estimation model to synthesize high-quality corresponding right images. Unlike previous methods that fill the occluded area in warped right images using random backgrounds or using convolutions to take nearby pixels selectively, we fine-tune a diffusion inpainting model to recover the background. Images generated by our model possess better details and undamaged semantic structures. Besides, we propose Training-free Confidence Generation and Adaptive Disparity Selection. The former suppresses the negative effect of harmful pseudo ground truth during stereo training, while the latter helps generate a wider disparity distribution and better synthetic images. Experiments show that models trained under our pipeline achieve state-of-the-art zero-shot generalization results among all published methods. The code will be available upon publication of the paper.
- Abstract(参考訳): 最先端の教師付きステレオマッチング手法は、様々なベンチマークで驚くべき結果を得た。
しかし、これらのデータ駆動手法は、実際の注釈付きデータがないため、現実のシナリオへの一般化に苦しむ。
本稿では,高品質なステレオ画像生成のための新しいパイプラインであるStereoGenを提案する。
このパイプラインは、モノクロ深度推定モデルによって生成された左画像と擬似不均一性として任意の単一画像を利用し、高品質な対応する右画像を生成する。
ランダムな背景を用いたり、コンボリューションを用いて近傍の画素を選択的に取り込み、歪んだ右画像の隠蔽領域を埋める従来の方法とは異なり、背景を再現するために拡散塗装モデルを微調整する。
我々のモデルが生成した画像は、より詳細な情報と損傷のないセマンティック構造を持っている。
また,トレーニング不要な信頼生成と適応的格差選択を提案する。
前者は、ステレオトレーニング中に有害な擬似地面真理の負の効果を抑える一方、後者はより広い相違分布とより良い合成画像を生成するのに役立つ。
実験により, パイプライン下で訓練したモデルにより, 全ての手法で最先端のゼロショット一般化結果が得られることがわかった。
コードは論文の発行時に公開される。
関連論文リスト
- Detection of Synthetic Face Images: Accuracy, Robustness, Generalization [1.757194730633422]
合成画像と実画像の分離において,特定の画像生成装置で訓練した簡単なモデルでほぼ完璧な精度が得られることがわかった。
このモデルは敵の攻撃に弱いことが判明し、目に見えない発電機には一般化されなかった。
論文 参考訳(メタデータ) (2024-06-25T13:34:50Z) - StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models [2.9260206957981167]
StereoDiffusionを紹介します。これは、無償でトレーニングし、驚くほど簡単に使用でき、元のStable Diffusionモデルにシームレスに統合する手法です。
提案手法は,ステレオ画像ペアを高速に生成するためのエンドツーエンドで軽量な機能を実現するために潜時変数を変更する。
提案手法はステレオ生成プロセスを通じて画像品質の基準を高く維持し,様々な定量的評価を行う。
論文 参考訳(メタデータ) (2024-03-08T00:30:25Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Data Generation using Texture Co-occurrence and Spatial Self-Similarity
for Debiasing [6.976822832216875]
本稿では, 反対ラベル付き画像のテクスチャ表現を用いて, 付加画像を明示的に生成する新しいデバイアス手法を提案する。
新たに生成された各画像は、反対ラベルのターゲット画像からテクスチャを転送しながら、ソース画像から類似した空間情報を含む。
本モデルでは,生成画像のテクスチャがターゲットと類似しているか否かを決定するテクスチャ共起損失と,生成画像とソース画像間の空間的詳細がよく保存されているかどうかを決定する空間的自己相似損失とを統合する。
論文 参考訳(メタデータ) (2021-10-15T08:04:59Z) - Low-Light Image Enhancement with Normalizing Flow [92.52290821418778]
本稿では,この一対多の関係を正規化フローモデルを用いてモデル化する。
低照度画像/特徴を条件として取り、通常露光される画像の分布をガウス分布にマッピングすることを学ぶ可逆ネットワーク。
既存のベンチマークデータセットによる実験結果から,提案手法はより定量的,質的な結果を得ることができ,照度が良く,ノイズやアーティファクトが小さく,色も豊かになることがわかった。
論文 参考訳(メタデータ) (2021-09-13T12:45:08Z) - Image Inpainting Using Wasserstein Generative Adversarial Imputation
Network [0.0]
本稿では,Wasserstein Generative Adversarial Imputation Networkに基づく画像インペイントモデルを提案する。
普遍計算モデルは、十分な品質で欠落の様々なシナリオを扱うことができる。
論文 参考訳(メタデータ) (2021-06-23T05:55:07Z) - Diverse Single Image Generation with Controllable Global Structure
though Self-Attention [1.2522889958051286]
我々は、生成的敵ネットワークを用いて、グローバルなコンテキストを必要とする画像を生成する方法を示す。
我々の結果は、特にグローバルなコンテキストを必要とする画像の生成において、最先端技術よりも視覚的に優れている。
ピクセルの平均標準偏差を用いて測定した画像生成の多様性も良好である。
論文 参考訳(メタデータ) (2021-02-09T11:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。