論文の概要: Pixel VQ-VAEs for Improved Pixel Art Representation
- arxiv url: http://arxiv.org/abs/2203.12130v1
- Date: Wed, 23 Mar 2022 01:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 13:44:48.867601
- Title: Pixel VQ-VAEs for Improved Pixel Art Representation
- Title(参考訳): pixel vq-vaesによるピクセルアート表現の改善
- Authors: Akash Saravanan and Matthew Guzdial
- Abstract要約: 画素アートの表現を学習する特殊VQ-VAEモデルを提案する。
組込み品質と下流タスクのパフォーマンスの両方において、他のモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.9645196221785693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has had a great deal of success in image processing.
However, the focus of this work has largely been on realistic images, ignoring
more niche art styles such as pixel art. Additionally, many traditional machine
learning models that focus on groups of pixels do not work well with pixel art,
where individual pixels are important. We propose the Pixel VQ-VAE, a
specialized VQ-VAE model that learns representations of pixel art. We show that
it outperforms other models in both the quality of embeddings as well as
performance on downstream tasks.
- Abstract(参考訳): 機械学習は画像処理で大きな成功を収めています。
しかし、この作品の焦点は主に写実的なイメージであり、ピクセルアートのようなよりニッチな芸術スタイルを無視している。
さらに、ピクセルのグループに焦点を当てた従来の機械学習モデルは、個々のピクセルが重要であるピクセルアートではうまく機能しない。
ピクセルアートの表現を学習する特殊なvq-vaeモデルであるpixel vq-vaeを提案する。
組込み品質と下流タスクのパフォーマンスの両方において、他のモデルよりも優れていることを示す。
関連論文リスト
- SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation [64.40561867379627]
ピクセルアートのような低解像度の量子化画像は、現代の応用で復活している。
SD-$pi$XLは, 微分可能な画像生成器とともに, スコア蒸留サンプリングを用いた定量化画像を生成する手法である。
提案手法は,入力画像を,キーセマンティックな特徴を維持しつつ,低解像度の量子化バージョンに変換する能力であることを示す。
論文 参考訳(メタデータ) (2024-10-08T17:48:01Z) - Improving Accuracy-robustness Trade-off via Pixel Reweighted Adversarial Training [61.61368146268329]
また,Pixel-reweighted AdveRsarial Training (PART)を提案する。
CIFAR-10、SVHN、TinyImagenet-200の堅牢性を損なうことなく、精度の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-06-02T09:43:34Z) - Dual-Branch Network for Portrait Image Quality Assessment [76.27716058987251]
ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。
我々は2つのバックボーンネットワーク(textiti.e., Swin Transformer-B)を使用して、肖像画全体と顔画像から高品質な特徴を抽出する。
我々は、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉えている。
論文 参考訳(メタデータ) (2024-05-14T12:43:43Z) - PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation [110.10627872744254]
PixArt-Sigmaは4K解像度で画像を直接生成できる拡散変換器モデルである。
PixArt-Sigmaは、非常に高い忠実度とテキストプロンプトとのアライメントを改善した画像を提供する。
論文 参考訳(メタデータ) (2024-03-07T17:41:37Z) - Superpixel Transformers for Efficient Semantic Segmentation [32.537400525407186]
本稿では,画像の過剰部分化というスーパーピクセルの考え方を活用し,近代的なトランスフォーマーフレームワークでそれらを適用することによって,その解決策を提案する。
提案手法は,グローバルな自己認識機構によって生成されるリッチなスーパーピクセル特徴により,セマンティックセマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-28T23:09:30Z) - Using Unreliable Pseudo-Labels for Label-Efficient Semantic Segmentation [78.56076985502291]
私たちは、すべてのピクセルがモデルトレーニングに重要であり、信頼できない、曖昧なピクセルでさえも重要だと論じます。
我々は予測のエントロピーを通して信頼できないピクセルを分離し、信頼できない各ピクセルを負のキーからなるカテゴリワイドキューにプッシュする。
トレーニングの進化を考えると、信頼できない分割の閾値を適応的に調整する。
論文 参考訳(メタデータ) (2023-06-04T09:40:25Z) - Learn how to Prune Pixels for Multi-view Neural Image-based Synthesis [10.571582038258443]
本稿では,ピクセルプルーニングの手法であるLeHoPPを提案する。
レンダリングビューにおける各入力ピクセルの重要性について検討し、無関係なピクセルの使用を避ける。
画像ベースのレンダリングネットワークを再トレーニングしなくても,合成品質と画素レートのトレードオフは良好である。
論文 参考訳(メタデータ) (2023-05-05T14:29:24Z) - Information-guided pixel augmentation for pixel-wise contrastive
learning [22.00687816406677]
ピクセルワイドコントラスト学習は、医学的ランドマーク検出のようなピクセルワイドなタスクに役立つ。
そこで本研究では,教師なし画素単位のコントラスト学習を改善するために,画素粒度を有する画素増倍法を提案する。
論文 参考訳(メタデータ) (2022-11-14T05:12:23Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Unsupervised Skill-Discovery and Skill-Learning in Minecraft [0.0]
状態表現の教師なしスキル発見と自己教師付き学習を活用する。
変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。
以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことが示唆された。
論文 参考訳(メタデータ) (2021-07-18T09:28:21Z) - Learning to Resize Images for Computer Vision Tasks [15.381549764216134]
そこで本研究では,リニアリシライザを学習リシライザに置き換えることで,性能を大幅に向上できることを示す。
我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。
提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。
論文 参考訳(メタデータ) (2021-03-17T23:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。