論文の概要: Learning Modulated Transformation in GANs
- arxiv url: http://arxiv.org/abs/2308.15472v1
- Date: Tue, 29 Aug 2023 17:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 12:52:22.934093
- Title: Learning Modulated Transformation in GANs
- Title(参考訳): GANにおける学習変調変換
- Authors: Ceyuan Yang, Qihang Zhang, Yinghao Xu, Jiapeng Zhu, Yujun Shen, Bo Dai
- Abstract要約: 生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
- 参考スコア(独自算出の注目度): 69.95217723100413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of style-based generators largely benefits from style modulation,
which helps take care of the cross-instance variation within data. However, the
instance-wise stochasticity is typically introduced via regular convolution,
where kernels interact with features at some fixed locations, limiting its
capacity for modeling geometric variation. To alleviate this problem, we equip
the generator in generative adversarial networks (GANs) with a plug-and-play
module, termed as modulated transformation module (MTM). This module predicts
spatial offsets under the control of latent codes, based on which the
convolution operation can be applied at variable locations for different
instances, and hence offers the model an additional degree of freedom to handle
geometry deformation. Extensive experiments suggest that our approach can be
faithfully generalized to various generative tasks, including image generation,
3D-aware image synthesis, and video generation, and get compatible with
state-of-the-art frameworks without any hyper-parameter tuning. It is
noteworthy that, towards human generation on the challenging TaiChi dataset, we
improve the FID of StyleGAN3 from 21.36 to 13.60, demonstrating the efficacy of
learning modulated geometry transformation.
- Abstract(参考訳): スタイルベースのジェネレータの成功は大半がスタイル変調の恩恵を受けている。
しかし、インスタンスワイズ確率性は典型的には通常の畳み込みによって導入され、カーネルは一定の位置にある特徴と相互作用し、幾何学的変動をモデル化する能力を制限する。
この問題を軽減するため、生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
このモジュールは遅延符号の制御の下で空間オフセットを予測し、異なるインスタンスの可変位置で畳み込み演算を適用できるため、幾何学的変形を扱うための追加の自由度がモデルに与えられる。
広範な実験により,提案手法は画像生成,3d認識画像合成,ビデオ生成など様々な生成タスクに忠実に一般化でき,ハイパーパラメータチューニングを伴わない最先端のフレームワークと互換性があることが示唆された。
挑戦的な太一データセット上での人間生成に向けて,スタイルガン3のfidを21.36から13.60に改善し,変調幾何変換学習の有効性を実証した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GeoMFormer: A General Architecture for Geometric Molecular Representation Learning [84.02083170392764]
我々はこの目的を達成するためにGeoMFormerと呼ばれるトランスフォーマーに基づく新しい分子モデルを導入する。
我々は,GeoMFormerが,異なる型やスケールの不変タスクと同変タスクの両方において,高い性能を達成することを示す。
論文 参考訳(メタデータ) (2024-06-24T17:58:13Z) - GGAvatar: Geometric Adjustment of Gaussian Head Avatar [6.58321368492053]
GGAvatarは、複雑なアイデンティティを持つ動的ヘッドアバターを堅牢にモデル化するために設計された、新しい3Dアバター表現である。
GGAvatarは高忠実なレンダリングを生成でき、視覚的品質と定量的メトリクスにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-05-20T12:54:57Z) - Multiple View Geometry Transformers for 3D Human Pose Estimation [35.26756920323391]
多視点人間のポーズ推定におけるトランスフォーマーの3次元推論能力の向上を目指す。
本稿では,一連の幾何学的および外観的モジュールを反復的に構成した新しいハイブリッドモデルMVGFormerを提案する。
論文 参考訳(メタデータ) (2023-11-18T06:32:40Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - 3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion
Process [32.3773514247982]
複数の3次元タスクに適した,一般化された3次元形状生成モデルを開発した。
設計は、提案した3次元形状先行モデルに高忠実度、多彩な特徴と、相互モダリティアライメントの能力を併用する。
論文 参考訳(メタデータ) (2023-03-18T12:50:29Z) - 3D Generative Model Latent Disentanglement via Local Eigenprojection [13.713373496487012]
本稿では,3次元頭部および体メッシュの異なるニューラルネットワークに基づく生成モデルに対するスペクトル幾何学に基づく新しい損失関数を提案する。
実験結果から,我々の局所固有射影不整形(LED)モデルでは,最先端技術に対する不整形が改善されていることがわかった。
論文 参考訳(メタデータ) (2023-02-24T18:19:49Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Instant recovery of shape from spectrum via latent space connections [33.83258865005668]
ラプラシアンスペクトルから形状を復元する最初の学習法を提案する。
自動エンコーダが与えられた場合、我々のモデルはサイクル整合モジュールの形で潜在ベクトルを固有値列にマッピングする。
我々のデータ駆動型アプローチは、計算コストのごく一部でより正確な結果を提供しながら、事前の手法で必要となるアドホック正規化器の必要性を置き換える。
論文 参考訳(メタデータ) (2020-03-14T00:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。