論文の概要: USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
- arxiv url: http://arxiv.org/abs/2508.18966v1
- Date: Tue, 26 Aug 2025 12:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.830241
- Title: USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
- Title(参考訳): USO: アンタングルとリワード学習による統一スタイルと主観的生成
- Authors: Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He,
- Abstract要約: We present U.S.O, a Unified Style-Subject Optimized customization model。
まず、コンテンツ画像、スタイル画像、およびそれに対応するスタイル化されたコンテンツ画像からなる大規模トリプルトデータセットを構築する。
第2に、スタイルの特徴を同時に調整し、スタイルからコンテンツを切り離すアンタングル学習方式を導入する。
第3に、モデルの性能をさらに向上させるために、SRLと表記されるスタイルの報酬学習パラダイムを組み込んだ。
- 参考スコア(独自算出の注目度): 17.75580298339048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing literature typically treats style-driven and subject-driven generation as two disjoint tasks: the former prioritizes stylistic similarity, whereas the latter insists on subject consistency, resulting in an apparent antagonism. We argue that both objectives can be unified under a single framework because they ultimately concern the disentanglement and re-composition of content and style, a long-standing theme in style-driven research. To this end, we present USO, a Unified Style-Subject Optimized customization model. First, we construct a large-scale triplet dataset consisting of content images, style images, and their corresponding stylized content images. Second, we introduce a disentangled learning scheme that simultaneously aligns style features and disentangles content from style through two complementary objectives, style-alignment training and content-style disentanglement training. Third, we incorporate a style reward-learning paradigm denoted as SRL to further enhance the model's performance. Finally, we release USO-Bench, the first benchmark that jointly evaluates style similarity and subject fidelity across multiple metrics. Extensive experiments demonstrate that USO achieves state-of-the-art performance among open-source models along both dimensions of subject consistency and style similarity. Code and model: https://github.com/bytedance/USO
- Abstract(参考訳): 現存する文献は通常、スタイル駆動と主題駆動の2つの非結合的なタスクとして扱う: 前者はスタイル的類似性を優先するが、後者は主題の一貫性を主張する。
スタイル駆動研究における長年のテーマであるコンテンツとスタイルの混乱と再構成を最終的に懸念するからである。
この目的のために、統一スタイルオブジェクト最適化カスタマイズモデルUSOを提案する。
まず、コンテンツ画像、スタイル画像、およびそれに対応するスタイリングされたコンテンツ画像からなる大規模トリプルトデータセットを構築する。
次に,2つの相補的目的,スタイルアライメントトレーニングとコンテンツスタイルアライメントトレーニングを通じて,スタイルの特徴を同時に調整し,コンテンツをスタイルから切り離すアンタングル型学習手法を提案する。
第3に、モデルの性能をさらに向上させるために、SRLと表記されるスタイルの報酬学習パラダイムを組み込んだ。
最後に、USO-Benchは、複数のメトリクスにまたがるスタイルの類似性と主題の忠実さを共同で評価する最初のベンチマークである。
大規模な実験により、USOは、主題の整合性とスタイルの類似性の両面に沿って、オープンソースモデル間の最先端のパフォーマンスを達成することを示した。
コードとモデル:https://github.com/bytedance/USO
関連論文リスト
- StyleDistance: Stronger Content-Independent Style Embeddings with Synthetic Parallel Examples [48.44036251656947]
スタイル表現は、内容に関係なく、類似した書体スタイルのテキストを密に埋め込み、異なる書体スタイルのテキストを遠くに埋め込むことを目的としている。
より強力なコンテンツに依存しないスタイル埋め込みをトレーニングするための新しいアプローチであるStyleDistanceを紹介する。
論文 参考訳(メタデータ) (2024-10-16T17:25:25Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance
Consistency [59.427074701985795]
単一ビューの再構築は通常、視点アノテーション、シルエット、背景の欠如、同じインスタンスの複数のビュー、テンプレートの形状、対称性に依存する。
異なるオブジェクトインスタンスのイメージ間の一貫性を明確に活用することで、これらの監督と仮説をすべて回避します。
i)プログレッシブ・コンディショニング(プログレッシブ・コンディショニング)、(ii)類似の形状やテクスチャを持つインスタンス間の一貫性の喪失、(ii)モデルのカテゴリからインスタンスへと徐々に専門化するためのトレーニング戦略。
論文 参考訳(メタデータ) (2022-04-21T17:47:35Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。