論文の概要: SIGMA-GEN: Structure and Identity Guided Multi-subject Assembly for Image Generation
- arxiv url: http://arxiv.org/abs/2510.06469v1
- Date: Tue, 07 Oct 2025 21:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.20313
- Title: SIGMA-GEN: Structure and Identity Guided Multi-subject Assembly for Image Generation
- Title(参考訳): SIGMA-GEN:画像生成のための構造と識別誘導多目的アセンブリ
- Authors: Oindrila Saha, Vojtech Krs, Radomir Mech, Subhransu Maji, Kevin Blackburn-Matzen, Matheus Gadelha,
- Abstract要約: 画像生成のための統合型フレームワークSIGMA-GENを提案する。
従来のアプローチとは異なり、SIGMA-GENはシングルパスのマルチオブジェクトID保存生成を可能にする最初の方法である。
提案手法の重要な強みは,様々なレベルの精度でユーザガイダンスを支援する能力である。
- 参考スコア(独自算出の注目度): 23.03603120388675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SIGMA-GEN, a unified framework for multi-identity preserving image generation. Unlike prior approaches, SIGMA-GEN is the first to enable single-pass multi-subject identity-preserved generation guided by both structural and spatial constraints. A key strength of our method is its ability to support user guidance at various levels of precision -- from coarse 2D or 3D boxes to pixel-level segmentations and depth -- with a single model. To enable this, we introduce SIGMA-SET27K, a novel synthetic dataset that provides identity, structure, and spatial information for over 100k unique subjects across 27k images. Through extensive evaluation we demonstrate that SIGMA-GEN achieves state-of-the-art performance in identity preservation, image generation quality, and speed. Code and visualizations at https://oindrilasaha.github.io/SIGMA-Gen/
- Abstract(参考訳): 画像生成のための統合型フレームワークSIGMA-GENを提案する。
従来のアプローチとは異なり、SIGMA-GENは、構造的制約と空間的制約の両方でガイドされる、シングルパスのマルチオブジェクトID保存生成を可能にする最初の方法である。
提案手法の重要な強みは,粗い2Dボックスや3Dボックスからピクセルレベルのセグメンテーションや深度に至るまで,さまざまなレベルの精度でユーザガイダンスをサポートする能力である。
そこで本研究では,SIGMA-SET27Kを提案する。SIGMA-SET27Kは,27k画像にまたがる100万以上のユニークな被写体に対して,識別,構造,空間情報を提供する新しい合成データセットである。
SIGMA-GENがアイデンティティ保存,画像生成品質,速度の最先端性を実現することを示す。
Code and visualizations at https://oindrilasaha.github.io/SIGMA-Gen/
関連論文リスト
- UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。