論文の概要: Image Generation with a Sphere Encoder
- arxiv url: http://arxiv.org/abs/2602.15030v1
- Date: Mon, 16 Feb 2026 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.652347
- Title: Image Generation with a Sphere Encoder
- Title(参考訳): 球エンコーダを用いた画像生成
- Authors: Kaiyu Yue, Menglin Jia, Ji Hou, Tom Goldstein,
- Abstract要約: Sphereは、単一のフォワードパスで画像を生成することができる効率的な生成フレームワークである。
我々のアプローチは、球面潜在空間に一様にマッピングするエンコーダと、ランダム潜在ベクトルを画像空間にマッピングするデコーダを学習することで機能する。
- 参考スコア(独自算出の注目度): 52.086777706390706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Sphere Encoder, an efficient generative framework capable of producing images in a single forward pass and competing with many-step diffusion models using fewer than five steps. Our approach works by learning an encoder that maps natural images uniformly onto a spherical latent space, and a decoder that maps random latent vectors back to the image space. Trained solely through image reconstruction losses, the model generates an image by simply decoding a random point on the sphere. Our architecture naturally supports conditional generation, and looping the encoder/decoder a few times can further enhance image quality. Across several datasets, the sphere encoder approach yields performance competitive with state of the art diffusions, but with a small fraction of the inference cost. Project page is available at https://sphere-encoder.github.io .
- Abstract(参考訳): Sphere Encoderは、単一の前方通過で画像を生成でき、5段階未満で多段階拡散モデルと競合する効率的な生成フレームワークである。
提案手法は,自然画像を球状潜伏空間に一様にマッピングするエンコーダと,ランダム潜伏ベクトルを画像空間にマッピングするデコーダを学習する。
画像再構成損失のみで訓練されたモデルでは、球面上のランダムな点をデコードするだけで画像を生成する。
我々のアーキテクチャは自然に条件生成をサポートし、エンコーダ/デコーダを数回ループすることで、画像の品質をさらに向上させることができる。
いくつかのデータセットにわたって、スフィアエンコーダのアプローチは、最先端の拡散と競合する性能をもたらすが、推論コストはわずかである。
プロジェクトページはhttps://sphere-encoder.github.io で公開されている。
関連論文リスト
- Geometry-Preserving Encoder/Decoder in Latent Generative Models [15.766401356353084]
本稿では,VAEと異なる理論的特性を持つ新しいエンコーダ/デコーダフレームワークを提案する。
エンコーダとデコーダの両方のトレーニングプロセスにおいて,この幾何保存エンコーダの重要な利点を示す。
論文 参考訳(メタデータ) (2025-01-16T23:14:34Z) - SCALAR-NeRF: SCAlable LARge-scale Neural Radiance Fields for Scene
Reconstruction [66.69049158826677]
本稿では,スケーラブルな大規模ニューラルシーン再構築に適した新しいフレームワークであるSCALAR-NeRFを紹介する。
ニューラル表現をエンコーダ・デコーダアーキテクチャとして構成し、そこではエンコーダが3次元点座標を処理してエンコーダ化された特徴を生成する。
そこで本研究では,これらの局所モデルから出力を抽出し,最終的な再構築を実現するための効率的かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T10:18:16Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。