論文の概要: GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2401.01951v2
- Date: Thu, 05 Dec 2024 17:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:35.295361
- Title: GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks
- Title(参考訳): GeoPos:畳み込みニューラルネットワークを用いた画像合成における細粒度詳細化のための最小位置符号化
- Authors: Mehran Hosseini, Peyman Hosseini,
- Abstract要約: 複雑な幾何学的特徴を再現する画像生成モデルの永続的不備は、ほぼ10年間にわたって進行中の問題であった。
本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。
本研究では,拡散モデル,GAN,変分オートエンコーダ(VAE)によって生成された画像の品質を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The enduring inability of image generative models to recreate intricate geometric features, such as those present in human hands and fingers has been an ongoing problem in image generation for nearly a decade. While strides have been made by increasing model sizes and diversifying training datasets, this issue remains prevalent across all models, from denoising diffusion models to Generative Adversarial Networks (GAN), pointing to a fundamental shortcoming in the underlying architectures. In this paper, we demonstrate how this problem can be mitigated by augmenting convolution layers geometric capabilities through providing them with a single input channel incorporating the relative n-dimensional Cartesian coordinate system. We show this drastically improves quality of images generated by Diffusion Models, GANs, and Variational AutoEncoders (VAE).
- Abstract(参考訳): 画像生成モデルが人間の手や指にあるような複雑な幾何学的特徴を再現できないことは、画像生成において10年近く続いている問題である。
モデルのサイズを拡大し、トレーニングデータセットを多様化することで、努力が続けられてきたが、この問題は拡散モデルからGAN(Generative Adversarial Networks)まで、すべてのモデルで広く行き渡っている。
本稿では, 相対的なn次元カルト座標系を組み込んだ単一入力チャネルを提供することにより, 畳み込み層を幾何的に拡張することにより, この問題を緩和できることを示す。
本研究では,拡散モデル,GAN,変分オートエンコーダ(VAE)によって生成された画像の品質を大幅に向上させることを示す。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Learning multi-scale local conditional probability models of images [7.07848787073901]
ディープニューラルネットワークは、最近のスコアベース拡散法で得られた高品質な世代によって証明されたように、画像の強力な事前確率モデルを学ぶことができる。
しかし、これらのネットワークが複雑なグローバルな統計構造をとらえる手段は、明らかに次元の呪いに苦しむことなく、謎のままだ。
我々は拡散法を多スケール分解に取り入れ、粗大係数に条件付きウェーブレット係数の定常局所マルコフモデルを仮定することにより次元性を減少させる。
論文 参考訳(メタデータ) (2023-03-06T09:23:14Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z) - Neural Cellular Automata Manifold [84.08170531451006]
ニューラルセルラーオートマタのニューラルネットワークアーキテクチャは、より大きなNNにカプセル化可能であることを示す。
これにより、NAAの多様体を符号化する新しいモデルを提案し、それぞれが異なる画像を生成することができる。
生物学的には、我々のアプローチは転写因子の役割を担い、細胞の分化を促進する特定のタンパク質への遺伝子マッピングを調節する。
論文 参考訳(メタデータ) (2020-06-22T11:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。