論文の概要: Can We Generate Realistic Hands Only Using Convolution?
- arxiv url: http://arxiv.org/abs/2401.01951v1
- Date: Wed, 3 Jan 2024 19:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:32:53.763854
- Title: Can We Generate Realistic Hands Only Using Convolution?
- Title(参考訳): 畳み込みだけで現実的な手を作れるか?
- Authors: Mehran Hosseini and Peyman Hosseini
- Abstract要約: 画像生成モデルは、人間の手や指にあるような複雑な幾何学的特徴を再現できません。
本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。
GANと変分オートエンコーダ(VAE)が生成する手・顔画像の品質を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The enduring inability of image generative models to recreate intricate
geometric features, such as those present in human hands and fingers has been
an ongoing problem in image generation for nearly a decade. While strides have
been made by increasing model sizes and diversifying training datasets, this
issue remains prevalent across all models, from denoising diffusion models to
Generative Adversarial Networks (GAN), pointing to a fundamental shortcoming in
the underlying architectures. In this paper, we demonstrate how this problem
can be mitigated by augmenting convolution layers geometric capabilities
through providing them with a single input channel incorporating the relative
$n$-dimensional Cartesian coordinate system. We show that this drastically
improves quality of hand and face images generated by GANs and Variational
AutoEncoders (VAE).
- Abstract(参考訳): 人間の手や指にあるような複雑な幾何学的特徴を再現する画像生成モデルが永続的にできないことは、画像生成における10年近くの問題となっている。
モデルのサイズを拡大し、トレーニングデータセットを多様化することで、努力が続けられてきたが、この問題は拡散モデルからGAN(Generative Adversarial Networks)まで、すべてのモデルで広く行き渡っている。
本稿では,相対的な$n$次元カルト座標系を組み込んだ単一入力チャネルを提供することで,畳み込み層を幾何的に拡張することにより,この問題を緩和できることを示す。
これにより,ganと変分オートエンコーダ(vae)による手や顔画像の品質が大幅に向上する。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Learning multi-scale local conditional probability models of images [7.07848787073901]
ディープニューラルネットワークは、最近のスコアベース拡散法で得られた高品質な世代によって証明されたように、画像の強力な事前確率モデルを学ぶことができる。
しかし、これらのネットワークが複雑なグローバルな統計構造をとらえる手段は、明らかに次元の呪いに苦しむことなく、謎のままだ。
我々は拡散法を多スケール分解に取り入れ、粗大係数に条件付きウェーブレット係数の定常局所マルコフモデルを仮定することにより次元性を減少させる。
論文 参考訳(メタデータ) (2023-03-06T09:23:14Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。