論文の概要: SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models
- arxiv url: http://arxiv.org/abs/2508.03402v1
- Date: Tue, 05 Aug 2025 12:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.966374
- Title: SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models
- Title(参考訳): SCFlow: フローモデルによる暗黙の学習スタイルと内容の絡み合い
- Authors: Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer,
- Abstract要約: SCFlowは、絡み合った表現と非絡み合った表現の双方向マッピングを学習するフローマッチングフレームワークである。
SCFlowは画像Net-1kとWikiArtにゼロショット設定で一般化し、競合性能を実現する。
- 参考スコア(独自算出の注目度): 21.942778659176096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explicitly disentangling style and content in vision models remains challenging due to their semantic overlap and the subjectivity of human perception. Existing methods propose separation through generative or discriminative objectives, but they still face the inherent ambiguity of disentangling intertwined concepts. Instead, we ask: Can we bypass explicit disentanglement by learning to merge style and content invertibly, allowing separation to emerge naturally? We propose SCFlow, a flow-matching framework that learns bidirectional mappings between entangled and disentangled representations. Our approach is built upon three key insights: 1) Training solely to merge style and content, a well-defined task, enables invertible disentanglement without explicit supervision; 2) flow matching bridges on arbitrary distributions, avoiding the restrictive Gaussian priors of diffusion models and normalizing flows; and 3) a synthetic dataset of 510,000 samples (51 styles $\times$ 10,000 content samples) was curated to simulate disentanglement through systematic style-content pairing. Beyond controllable generation tasks, we demonstrate that SCFlow generalizes to ImageNet-1k and WikiArt in zero-shot settings and achieves competitive performance, highlighting that disentanglement naturally emerges from the invertible merging process.
- Abstract(参考訳): 視覚モデルでは、その意味的な重なり合いと人間の知覚の主観性が原因で、明示的なアンタングリングスタイルと内容が依然として困難である。
既存の方法は、生成的あるいは差別的な目的を通じて分離することを提案するが、それらはいまだに、絡み合わさった概念の本質的な曖昧さに直面している。
スタイルとコンテンツを非直感的にマージすることを学ぶことで、明示的な混乱を回避して、分離を自然に実現できますか?
本稿では,絡み合った表現と非絡み合った表現の双方向マッピングを学習するフローマッチングフレームワークSCFlowを提案する。
私たちのアプローチは3つの重要な洞察に基づいて構築されています。
1) 形式及び内容の融合のみを専門とする,明確に定義された課題は,明示的な監督を伴わずに,不可逆的な絡み合いを可能にする。
2 任意の分布上の流れ整合橋であって、拡散モデル及び正規化フローの制約付きガウス的先行性を回避すること。
3) 510,000サンプル(51スタイル$\times$10,000コンテンツサンプル)の合成データセットを, 系統的なスタイル-コンテントペアリングにより, 絡み合いをシミュレートした。
制御可能な生成タスク以外にも、SCFlowはゼロショット設定で ImageNet-1k と WikiArt に一般化し、競合性能を実現し、非可逆マージプロセスから自然に乱れが生じることを強調した。
関連論文リスト
- Contrastive Flow Matching [61.60002028726023]
コントラストフローマッチング(Contrastive Flow Matching)は、全ての条件フローに対して一意性を明示するフローマッチング対象の拡張である。
提案手法は,任意のサンプル対からの予測フロー間の相違を最大化するための対照的な目的を与える。
比較フローマッチングによるトレーニングモデル(1)は最大9倍のトレーニング速度,(2)は最大5倍のノイズ除去ステップ,(3)FIDを最大8.9以下に向上させる。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution [14.57591222028278]
クロスモーダルフローマッチングのための汎用的でシンプルなフレームワークであるCrossFlowを提案する。
本稿では、入力データに変分法を適用することの重要性を示し、フリーガイダンスを実現する方法を提案する。
また,本手法の一般化可能性を示すため,CrossFlowは多種多様なクロスモーダル/イントラモーダルマッピングタスクの最先端性に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。