論文の概要: AlphaVAE: Unified End-to-End RGBA Image Reconstruction and Generation with Alpha-Aware Representation Learning
- arxiv url: http://arxiv.org/abs/2507.09308v1
- Date: Sat, 12 Jul 2025 14:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.959602
- Title: AlphaVAE: Unified End-to-End RGBA Image Reconstruction and Generation with Alpha-Aware Representation Learning
- Title(参考訳): AlphaVAE:Alpha-Aware Representation Learningを用いた統合エンドツーエンドRGBA画像再構成と生成
- Authors: Zile Wang, Hao Yu, Jiabo Zhan, Chun Yuan,
- Abstract要約: ALPHAは、標準RGBメトリクスを標準背景のアルファブレンディングにより4チャンネル画像に適応する最初の総合RGBAベンチマークである。
さらに、専用アルファチャンネルを組み込むことで、事前訓練されたRGB VAEを拡張した、統一されたエンドツーエンドRGBA VAEであるALPHAVAEを紹介する。
我々のRGBA VAEは、従来の1Mに比べて8K画像のみに基づいて訓練されており、PSNRでは+4.9dB、再構築時にはLayerDiffuseよりも+3.2%のSSIM向上を実現している。
- 参考スコア(独自算出の注目度): 32.798523698352916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in latent diffusion models have achieved remarkable results in high-fidelity RGB image synthesis by leveraging pretrained VAEs to compress and reconstruct pixel data at low computational cost. However, the generation of transparent or layered content (RGBA image) remains largely unexplored, due to the lack of large-scale benchmarks. In this work, we propose ALPHA, the first comprehensive RGBA benchmark that adapts standard RGB metrics to four-channel images via alpha blending over canonical backgrounds. We further introduce ALPHAVAE, a unified end-to-end RGBA VAE that extends a pretrained RGB VAE by incorporating a dedicated alpha channel. The model is trained with a composite objective that combines alpha-blended pixel reconstruction, patch-level fidelity, perceptual consistency, and dual KL divergence constraints to ensure latent fidelity across both RGB and alpha representations. Our RGBA VAE, trained on only 8K images in contrast to 1M used by prior methods, achieves a +4.9 dB improvement in PSNR and a +3.2% increase in SSIM over LayerDiffuse in reconstruction. It also enables superior transparent image generation when fine-tuned within a latent diffusion framework. Our code, data, and models are released on https://github.com/o0o0o00o0/AlphaVAE for reproducibility.
- Abstract(参考訳): 遅延拡散モデルの最近の進歩は、事前学習されたVAEを用いて低計算コストでピクセルデータを圧縮・再構成することにより、高忠実なRGB画像合成において顕著な成果を上げている。
しかし、大規模なベンチマークが欠如しているため、透明または層状コンテンツ(RGBA画像)の生成はほとんど探索されていない。
本研究では,標準RGBメトリクスを標準背景へのアルファブレンディングにより4チャンネル画像に適応させる,初の総合RGBAベンチマークであるALPHAを提案する。
さらに、専用アルファチャンネルを組み込むことで、事前訓練されたRGB VAEを拡張した、統一されたエンドツーエンドRGBA VAEであるALPHAVAEを紹介する。
このモデルは、RGBおよびα表現の遅延忠実性を保証するために、アルファブレンド画素再構成、パッチレベル忠実度、知覚整合性、二重KL分散制約を組み合わせた複合目的で訓練される。
我々のRGBA VAEは、従来の1Mに比べて8K画像のみに基づいて訓練されており、PSNRでは+4.9dB、再構築時にはLayerDiffuseよりも+3.2%のSSIM向上を実現している。
また、潜伏拡散フレームワーク内で微調整された場合、優れた透過的な画像生成を可能にする。
私たちのコード、データ、モデルは再現性のためにhttps://github.com/o0o0o00o0/AlphaVAEでリリースされます。
関連論文リスト
- TransPixeler: Advancing Text-to-Video Generation with Transparency [43.6546902960154]
本稿では,従来のRGB機能を維持しつつ,RGBA生成のための事前学習ビデオモデルを拡張する方法であるTransPixelerを紹介する。
提案手法は,多彩で一貫したRGBA動画を効果的に生成し,VFXやインタラクティブなコンテンツ制作の可能性を高める。
論文 参考訳(メタデータ) (2025-01-06T13:32:16Z) - Enhancing RAW-to-sRGB with Decoupled Style Structure in Fourier Domain [27.1716081216131]
現在の方法では、携帯電話のRAW画像とDSLRカメラのRGB画像の違いを無視する。
本稿では、新しいNeural ISPフレームワーク、FourierISPを紹介する。
このアプローチは、画像を周波数領域内のスタイルと構造に分解し、独立した最適化を可能にする。
論文 参考訳(メタデータ) (2024-01-04T09:18:31Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - StereoISP: Rethinking Image Signal Processing for Dual Camera Systems [4.703692756660711]
StereoISPは、ステレオカメラ対から生測値を用いて、デシックされたデノライズされたRGB画像を生成する。
KITTI 2015では,再建RGB画像のPSNRを少なくとも2dB改善した。
論文 参考訳(メタデータ) (2022-11-11T18:34:59Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。