Fugu-MT 論文翻訳(概要): SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation

論文の概要: SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation

arxiv url: http://arxiv.org/abs/2410.06236v1
Date: Tue, 8 Oct 2024 17:48:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 10:31:16.261139
Title: SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation
Title（参考訳）: SD-$π$XL: スコア蒸留による低分解能量子化画像の生成
Authors: Alexandre Binninger, Olga Sorkine-Hornung,
Abstract要約: ピクセルアートのような低解像度の量子化画像は、現代の応用で復活している。 SD-$pi$XLは, 微分可能な画像生成器とともに, スコア蒸留サンプリングを用いた定量化画像を生成する手法である。提案手法は,入力画像を,キーセマンティックな特徴を維持しつつ,低解像度の量子化バージョンに変換する能力であることを示す。
参考スコア（独自算出の注目度）: 64.40561867379627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-resolution quantized imagery, such as pixel art, is seeing a revival in modern applications ranging from video game graphics to digital design and fabrication, where creativity is often bound by a limited palette of elemental units. Despite their growing popularity, the automated generation of quantized images from raw inputs remains a significant challenge, often necessitating intensive manual input. We introduce SD-$\pi$XL, an approach for producing quantized images that employs score distillation sampling in conjunction with a differentiable image generator. Our method enables users to input a prompt and optionally an image for spatial conditioning, set any desired output size $H \times W$, and choose a palette of $n$ colors or elements. Each color corresponds to a distinct class for our generator, which operates on an $H \times W \times n$ tensor. We adopt a softmax approach, computing a convex sum of elements, thus rendering the process differentiable and amenable to backpropagation. We show that employing Gumbel-softmax reparameterization allows for crisp pixel art effects. Unique to our method is the ability to transform input images into low-resolution, quantized versions while retaining their key semantic features. Our experiments validate SD-$\pi$XL's performance in creating visually pleasing and faithful representations, consistently outperforming the current state-of-the-art. Furthermore, we showcase SD-$\pi$XL's practical utility in fabrication through its applications in interlocking brick mosaic, beading and embroidery design.
Abstract（参考訳）: ピクセルアートのような低解像度の量子化画像は、ビデオゲームグラフィックスからデジタルデザインや製造まで、現代のアプリケーションで復活している。人気が高まっているにもかかわらず、生の入力から自動的に量子化された画像を生成することは大きな課題であり、しばしば集中的な手入力を必要とする。 SD-$\pi$XLは、微分可能な画像生成器と組み合わせて、スコア蒸留サンプリングを利用する量子化画像を生成する手法である。提案手法では,任意の出力サイズを$H \times W$に設定し,色や要素のパレットを$n$に設定する。各色は生成元に対する別のクラスに対応しており、これは$H \times W \times n$ tensor で作用する。我々はソフトマックスアプローチを採用し、要素の凸和を計算し、プロセスが微分可能で、バックプロパゲーションに対処できる。 Gumbel-softmax再パラメータ化を用いることで,鮮明なピクセルアート効果が得られることを示す。提案手法の特長は,入力画像を低解像度の量子化バージョンに変換し,キーセマンティックな特徴を保持できる点である。我々の実験は、SD-$\pi$XLの視覚的快楽で忠実な表現における性能を検証し、現状を一貫して上回っている。さらに, SD-$\pi$XL の実用性を示す。

関連論文リスト

Data Factory with Minimal Human Effort Using VLMs [35.30747487237989]
我々は、予め訓練されたコントロールネットとビジョンランゲージモデル(VLM)を統合して、ピクセルレベルのラベルと組み合わせた合成画像を生成する。このアプローチは手動のアノテーションの必要性を排除し、下流のタスクを大幅に改善します。 PASCAL-5i と COCO-20i は,単発セマンティックセマンティックセグメンテーションにおいて有望な性能と性能を示す。
論文参考訳（メタデータ） (2025-10-07T09:43:24Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文参考訳（メタデータ） (2024-06-03T07:14:19Z)
Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-31T01:20:16Z)
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文参考訳（メタデータ） (2024-03-15T12:45:40Z)
HINT: High-quality INPainting Transformer with Mask-Aware Encoding and Enhanced Attention [14.055584700641212]
既存の画像塗装法は畳み込みに基づくダウンサンプリング手法を利用して空間次元を小さくする。本稿では,新しいマスク対応画素シャッフルダウンサンプリングモジュールであるHINTを用いたエンドツーエンドの高品質インペインティングトランスを提案する。 4つのデータセット上の現代最先端モデルと比較して,HINTの優れた性能を示す。
論文参考訳（メタデータ） (2024-02-22T00:14:26Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文参考訳（メタデータ） (2023-03-12T20:49:07Z)
High-Resolution GAN Inversion for Degraded Images in Large Diverse Datasets [39.21692649763314]
本稿では,StyleGAN-XLの強力な生成能力を利用した新しいGANインバージョンフレームワークを提案する。 StyleGAN-XLによる逆問題を軽減するために、Clustering & Regularize Inversion (CRI)を提案する。我々は、複雑な自然画像の複数の復元作業(例えば、塗装、着色、超解像)において、CRI方式を検証し、定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2023-02-07T11:24:11Z)
MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-29T06:36:17Z)
Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文参考訳（メタデータ） (2020-07-01T17:59:57Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。