Fugu-MT 論文翻訳(概要): GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks

論文の概要: GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks

arxiv url: http://arxiv.org/abs/2401.01951v2
Date: Thu, 05 Dec 2024 17:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.457805
Title: GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks
Title（参考訳）: GeoPos:畳み込みニューラルネットワークを用いた画像合成における細粒度詳細化のための最小位置符号化
Authors: Mehran Hosseini, Peyman Hosseini,
Abstract要約: 複雑な幾何学的特徴を再現する画像生成モデルの永続的不備は、ほぼ10年間にわたって進行中の問題であった。本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。本研究では,拡散モデル,GAN,変分オートエンコーダ(VAE)によって生成された画像の品質を大幅に向上させることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The enduring inability of image generative models to recreate intricate geometric features, such as those present in human hands and fingers has been an ongoing problem in image generation for nearly a decade. While strides have been made by increasing model sizes and diversifying training datasets, this issue remains prevalent across all models, from denoising diffusion models to Generative Adversarial Networks (GAN), pointing to a fundamental shortcoming in the underlying architectures. In this paper, we demonstrate how this problem can be mitigated by augmenting convolution layers geometric capabilities through providing them with a single input channel incorporating the relative n-dimensional Cartesian coordinate system. We show this drastically improves quality of images generated by Diffusion Models, GANs, and Variational AutoEncoders (VAE).
Abstract（参考訳）: 画像生成モデルが人間の手や指にあるような複雑な幾何学的特徴を再現できないことは、画像生成において10年近く続いている問題である。モデルのサイズを拡大し、トレーニングデータセットを多様化することで、努力が続けられてきたが、この問題は拡散モデルからGAN(Generative Adversarial Networks)まで、すべてのモデルで広く行き渡っている。本稿では, 相対的なn次元カルト座標系を組み込んだ単一入力チャネルを提供することにより, 畳み込み層を幾何的に拡張することにより, この問題を緩和できることを示す。本研究では,拡散モデル,GAN,変分オートエンコーダ(VAE)によって生成された画像の品質を大幅に向上させることを示す。

関連論文リスト

A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography [1.0960289997471082]
本稿では, 深部生成モデルを用いて, スパース測地からのX線CT画像の再構成を行うための枠組みを提案する。高度に平らな測地でも得られた結果は極めて有望であるが、この方向にはさらなる研究が必要であることは明らかである。
論文参考訳（メタデータ） (2026-02-11T10:27:41Z)
GEWDiff: Geometric Enhanced Wavelet-based Diffusion Model for Hyperspectral Image Super-resolution [19.608052570649303]
超解像4回で超スペクトル像を再構成するための新しい枠組みを提案する。スペクトル空間情報を保存しながら、効率よくHSIを潜在空間に圧縮するウェーブレットベースのエンコーダデコーダが導入された。本モデルでは, 忠実度, スペクトル精度, 視覚リアリズム, 明度など, 複数次元にわたる最先端の成果を示した。
論文参考訳（メタデータ） (2025-11-10T13:44:16Z)
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文参考訳（メタデータ） (2024-10-16T12:13:17Z)
GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文参考訳（メタデータ） (2024-06-06T17:00:10Z)
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:33Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文参考訳（メタデータ） (2023-12-10T17:39:42Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文参考訳（メタデータ） (2023-03-26T12:03:18Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)
Learning multi-scale local conditional probability models of images [7.07848787073901]
ディープニューラルネットワークは、最近のスコアベース拡散法で得られた高品質な世代によって証明されたように、画像の強力な事前確率モデルを学ぶことができる。しかし、これらのネットワークが複雑なグローバルな統計構造をとらえる手段は、明らかに次元の呪いに苦しむことなく、謎のままだ。我々は拡散法を多スケール分解に取り入れ、粗大係数に条件付きウェーブレット係数の定常局所マルコフモデルを仮定することにより次元性を減少させる。
論文参考訳（メタデータ） (2023-03-06T09:23:14Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文参考訳（メタデータ） (2021-07-28T02:19:39Z)
Spatial Dependency Networks: Neural Layers for Improved Generative Image Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文参考訳（メタデータ） (2021-03-16T07:01:08Z)
Improving Augmentation and Evaluation Schemes for Semantic Image Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文参考訳（メタデータ） (2020-11-25T10:55:26Z)
Neural Cellular Automata Manifold [84.08170531451006]
ニューラルセルラーオートマタのニューラルネットワークアーキテクチャは、より大きなNNにカプセル化可能であることを示す。これにより、NAAの多様体を符号化する新しいモデルを提案し、それぞれが異なる画像を生成することができる。生物学的には、我々のアプローチは転写因子の役割を担い、細胞の分化を促進する特定のタンパク質への遺伝子マッピングを調節する。
論文参考訳（メタデータ） (2020-06-22T11:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。