論文の概要: 3SGen: Unified Subject, Style, and Structure-Driven Image Generation with Adaptive Task-specific Memory
- arxiv url: http://arxiv.org/abs/2512.19271v1
- Date: Mon, 22 Dec 2025 11:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.722931
- Title: 3SGen: Unified Subject, Style, and Structure-Driven Image Generation with Adaptive Task-specific Memory
- Title(参考訳): 3SGen: 適応型タスク固有メモリによる統一された主題,スタイル,構造駆動画像生成
- Authors: Xinyang Song, Libin Wang, Weining Wang, Zhiwei Li, Jianxin Sun, Dandan Zheng, Jingdong Chen, Qi Li, Zhenan Sun,
- Abstract要約: 3SGenはタスク対応の統一フレームワークで、単一のモデル内で3つの条件付けモードすべてを実行する。
その中核となるのは、Adaptive Task-specific Memory (ATM)モジュールで、動的に切り離され、格納され、条件固有の事前情報を検索する。
本稿では3SGen-Benchを提案する。3SGen-Benchは3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench。
- 参考スコア(独自算出の注目度): 54.056509629389915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image generation approaches often address subject, style, and structure-driven conditioning in isolation, leading to feature entanglement and limited task transferability. In this paper, we introduce 3SGen, a task-aware unified framework that performs all three conditioning modes within a single model. 3SGen employs an MLLM equipped with learnable semantic queries to align text-image semantics, complemented by a VAE branch that preserves fine-grained visual details. At its core, an Adaptive Task-specific Memory (ATM) module dynamically disentangles, stores, and retrieves condition-specific priors, such as identity for subjects, textures for styles, and spatial layouts for structures, via a lightweight gating mechanism along with several scalable memory items. This design mitigates inter-task interference and naturally scales to compositional inputs. In addition, we propose 3SGen-Bench, a unified image-driven generation benchmark with standardized metrics for evaluating cross-task fidelity and controllability. Extensive experiments on our proposed 3SGen-Bench and other public benchmarks demonstrate our superior performance across diverse image-driven generation tasks.
- Abstract(参考訳): 最近の画像生成手法は、被写体、スタイル、構造駆動型コンディショニングを分離し、特徴的絡み合いと限られたタスク伝達可能性をもたらすことが多い。
本稿では,タスク対応統合フレームワークである3SGenを紹介する。
3SGenは、学習可能なセマンティッククエリを備えたMLLMを使用して、微細な視覚的詳細を保存するVAEブランチで補完されるテキストイメージセマンティクスを調整している。
その中核にあるAdaptive Task-specific Memory (ATM)モジュールは、いくつかのスケーラブルなメモリアイテムとともに軽量なゲーティング機構を通じて、主題のアイデンティティ、スタイルのテクスチャ、構造のための空間レイアウトなどの条件固有の事前情報を動的に切り離し、保存し、検索する。
この設計は、タスク間干渉を緩和し、自然に構成入力にスケールする。
さらに,3SGen-Benchを提案する。3SGen-Benchは3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench。
提案した3SGen-Benchや他の公開ベンチマークに関する大規模な実験は、さまざまな画像駆動生成タスクにおいて、優れたパフォーマンスを示している。
関連論文リスト
- ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。