論文の概要: SIGMA: Selective-Interleaved Generation with Multi-Attribute Tokens
- arxiv url: http://arxiv.org/abs/2602.07564v1
- Date: Sat, 07 Feb 2026 14:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.694904
- Title: SIGMA: Selective-Interleaved Generation with Multi-Attribute Tokens
- Title(参考訳): SIGMA:マルチ属性トークンを用いた選択インターリーブ生成
- Authors: Xiaoyan Zhang, Zechen Bai, Haofan Wang, Yiren Song,
- Abstract要約: 本稿では,拡散変圧器内でのインターリーブ多条件生成を可能にする統合後学習フレームワークSIGMAを提案する。
SIGMAは、様々な編集・生成タスクにおいて、制御性、条件間の整合性、視覚的品質を改善する。
- 参考スコア(独自算出の注目度): 21.749750225042263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent unified models such as Bagel demonstrate that paired image-edit data can effectively align multiple visual tasks within a single diffusion transformer. However, these models remain limited to single-condition inputs and lack the flexibility needed to synthesize results from multiple heterogeneous sources. We present SIGMA (Selective-Interleaved Generation with Multi-Attribute Tokens), a unified post-training framework that enables interleaved multi-condition generation within diffusion transformers. SIGMA introduces selective multi-attribute tokens, including style, content, subject, and identity tokens, which allow the model to interpret and compose multiple visual conditions in an interleaved text-image sequence. Through post-training on the Bagel unified backbone with 700K interleaved examples, SIGMA supports compositional editing, selective attribute transfer, and fine-grained multimodal alignment. Extensive experiments show that SIGMA improves controllability, cross-condition consistency, and visual quality across diverse editing and generation tasks, with substantial gains over Bagel on compositional tasks.
- Abstract(参考訳): Bagelのような最近の統一モデルでは、ペア化された画像編集データは単一の拡散変換器内で複数の視覚的タスクを効果的に整列させることができる。
しかし、これらのモデルは単一条件入力に限られており、複数の異種源から結果を生成するのに必要な柔軟性が欠如している。
SIGMA(Selective-Interleaved Generation with Multi-Attribute Tokens)は,分散トランスフォーマー内でのインターリーブド多条件生成を可能にする統合後学習フレームワークである。
SIGMAは、スタイル、コンテンツ、主題、アイデンティティトークンを含む選択的な多属性トークンを導入し、モデルがインターリーブされたテキストイメージシーケンスで複数の視覚条件を解釈し構成できるようにする。
700Kインターリーブされた例でベーゲルの統一バックボーンのポストトレーニングを通じて、SIGMAは合成編集、選択的属性転送、きめ細かいマルチモーダルアライメントをサポートする。
大規模な実験により、SIGMAは多種多様な編集および生成タスクにおける制御性、クロスコンディションの整合性、視覚的品質を改善し、構成タスクにおいてベーゲルよりも大幅に向上することが示された。
関連論文リスト
- Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation [54.38636515750502]
コンテンツ対応レイアウト生成タスクのための統一拡散変換器UniLayDiffを提案する。
我々は、背景画像、レイアウト要素、および多様な制約の間の複雑な相互作用を捉えるために、マルチモード拡散トランスフォーマフレームワークを使用します。
実験により、UniLayDiffは条件のないタスクから様々な条件生成タスクにまたがって最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-09T18:38:44Z) - FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:27:12Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation [14.725538019917625]
拡散確率モデル (DPM) は様々な画像合成タスクにおいて顕著な結果を示した。
DPMには低次元、解釈可能、そしてよく分離された潜在コードがない。
自動符号化による表現学習におけるDPMの可能性を探るため,Diff-AEを提案する。
論文 参考訳(メタデータ) (2023-07-12T04:11:08Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z) - DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis [0.38073142980733]
我々は、サンプル合成のための複数の画像をモデル化するために、単一画像GAN法を拡張した。
我々のデータ効率GAN(DEff-GAN)は、入力画像やクラス間で類似性や対応性を引き出すことができる場合に優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。