論文の概要: OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
- arxiv url: http://arxiv.org/abs/2511.20211v1
- Date: Tue, 25 Nov 2025 11:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.428523
- Title: OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
- Title(参考訳): OmniAlpha: 統合マルチタスクRGBA生成のためのシーケンス・ツー・シーケンス・フレームワーク
- Authors: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan,
- Abstract要約: シーケンス間RGBA画像生成と編集のための,最初の統合マルチタスク生成フレームワークであるOmniAlphaを提案する。
我々の研究は、統一されたマルチタスクモデルがRGBAの優れた共有表現を学習できることを証明し、より強力で階層対応な生成システムへの道を開いた。
- 参考スコア(独自算出の注目度): 43.93970229518124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.
- Abstract(参考訳): 生成モデルはRGB合成に優れているが、現実のアプリケーションはRGBA操作を必要とする。
特殊なシングルタスクモデルはアルファを処理するが、汎用性はない。
そこで我々は,この重要なギャップを埋めるために,RGBA画像生成と編集のための最初の統合マルチタスク生成フレームワークであるOmniAlphaを提案する。
アーキテクチャは、Diffusion Transformer (DiT) バックボーンに双方向拡張可能な層軸を持つ新しいRoPE方式であるMSRoPE-BiLで、複数の入力層とターゲットRGBA層の同時処理を可能にする。
このフレームワークを活用するために、新しい自動合成とフィルタパイプラインによって構築された、1,000の高品質で多層的な三重項からなる新しいデータセットであるAlphaLayersを紹介した。
OmniAlphaはこのデータセットを21の多様なタスクからなる総合的なスイートで共同でトレーニングし、我々の統一されたアプローチが強力で特殊なベースラインを一貫して上回っていることを示す広範な実験を行った。
特に、OmniAlphaは、AIM-500のマスクフリーマットティングにおいて、劇的な84.8%のSADを減少させ、層状コンディションにおける人間の嗜好の90%以上を勝ち取る。
我々の研究は、統一されたマルチタスクモデルがRGBAの優れた共有表現を学習できることを証明し、より強力で階層対応な生成システムへの道を開いた。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - AlphaVAE: Unified End-to-End RGBA Image Reconstruction and Generation with Alpha-Aware Representation Learning [32.798523698352916]
ALPHAは、標準RGBメトリクスを標準背景のアルファブレンディングにより4チャンネル画像に適応する最初の総合RGBAベンチマークである。
さらに、専用アルファチャンネルを組み込むことで、事前訓練されたRGB VAEを拡張した、統一されたエンドツーエンドRGBA VAEであるALPHAVAEを紹介する。
我々のRGBA VAEは、従来の1Mに比べて8K画像のみに基づいて訓練されており、PSNRでは+4.9dB、再構築時にはLayerDiffuseよりも+3.2%のSSIM向上を実現している。
論文 参考訳(メタデータ) (2025-07-12T14:53:42Z) - PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [23.67447416568964]
透明な画像層生成はデジタルアートとデザインにおいて重要な役割を果たしている。
既存の手法では、ツールセットを使用して単一のRGBイメージから透過層を分解したり、複数の透過層を順次生成するのが一般的である。
PSDiffusionは,複数層同時生成のための事前学習画像拡散モデルから,画像合成の先行情報を活用する統合拡散フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - MMGen: Unified Multi-modal Image Generation and Understanding in One Go [60.97155790727879]
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。
提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
論文 参考訳(メタデータ) (2025-03-26T15:37:17Z) - TransPixeler: Advancing Text-to-Video Generation with Transparency [43.6546902960154]
本稿では,従来のRGB機能を維持しつつ,RGBA生成のための事前学習ビデオモデルを拡張する方法であるTransPixelerを紹介する。
提案手法は,多彩で一貫したRGBA動画を効果的に生成し,VFXやインタラクティブなコンテンツ制作の可能性を高める。
論文 参考訳(メタデータ) (2025-01-06T13:32:16Z) - SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文 参考訳(メタデータ) (2024-09-07T13:07:59Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。