論文の概要: Can We Generate Realistic Hands Only Using Convolution?
- arxiv url: http://arxiv.org/abs/2401.01951v1
- Date: Wed, 3 Jan 2024 19:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:32:53.763854
- Title: Can We Generate Realistic Hands Only Using Convolution?
- Title(参考訳): 畳み込みだけで現実的な手を作れるか?
- Authors: Mehran Hosseini and Peyman Hosseini
- Abstract要約: 画像生成モデルは、人間の手や指にあるような複雑な幾何学的特徴を再現できません。
本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。
GANと変分オートエンコーダ(VAE)が生成する手・顔画像の品質を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The enduring inability of image generative models to recreate intricate
geometric features, such as those present in human hands and fingers has been
an ongoing problem in image generation for nearly a decade. While strides have
been made by increasing model sizes and diversifying training datasets, this
issue remains prevalent across all models, from denoising diffusion models to
Generative Adversarial Networks (GAN), pointing to a fundamental shortcoming in
the underlying architectures. In this paper, we demonstrate how this problem
can be mitigated by augmenting convolution layers geometric capabilities
through providing them with a single input channel incorporating the relative
$n$-dimensional Cartesian coordinate system. We show that this drastically
improves quality of hand and face images generated by GANs and Variational
AutoEncoders (VAE).
- Abstract(参考訳): 人間の手や指にあるような複雑な幾何学的特徴を再現する画像生成モデルが永続的にできないことは、画像生成における10年近くの問題となっている。
モデルのサイズを拡大し、トレーニングデータセットを多様化することで、努力が続けられてきたが、この問題は拡散モデルからGAN(Generative Adversarial Networks)まで、すべてのモデルで広く行き渡っている。
本稿では,相対的な$n$次元カルト座標系を組み込んだ単一入力チャネルを提供することで,畳み込み層を幾何的に拡張することにより,この問題を緩和できることを示す。
これにより,ganと変分オートエンコーダ(vae)による手や顔画像の品質が大幅に向上する。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Learning multi-scale local conditional probability models of images [7.07848787073901]
ディープニューラルネットワークは、最近のスコアベース拡散法で得られた高品質な世代によって証明されたように、画像の強力な事前確率モデルを学ぶことができる。
しかし、これらのネットワークが複雑なグローバルな統計構造をとらえる手段は、明らかに次元の呪いに苦しむことなく、謎のままだ。
我々は拡散法を多スケール分解に取り入れ、粗大係数に条件付きウェーブレット係数の定常局所マルコフモデルを仮定することにより次元性を減少させる。
論文 参考訳(メタデータ) (2023-03-06T09:23:14Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z) - Neural Cellular Automata Manifold [84.08170531451006]
ニューラルセルラーオートマタのニューラルネットワークアーキテクチャは、より大きなNNにカプセル化可能であることを示す。
これにより、NAAの多様体を符号化する新しいモデルを提案し、それぞれが異なる画像を生成することができる。
生物学的には、我々のアプローチは転写因子の役割を担い、細胞の分化を促進する特定のタンパク質への遺伝子マッピングを調節する。
論文 参考訳(メタデータ) (2020-06-22T11:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。