論文の概要: Unsupervised Decomposition and Recombination with Discriminator-Driven Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.22057v1
- Date: Thu, 29 Jan 2026 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.065229
- Title: Unsupervised Decomposition and Recombination with Discriminator-Driven Diffusion Models
- Title(参考訳): 判別器駆動拡散モデルによる教師なし分解と再結合
- Authors: Archer Wang, Emile Anand, Yilun Du, Marin Soljačić,
- Abstract要約: 複雑なデータを因子化表現に分解することで、再利用可能なコンポーネントを明らかにし、コンポーネントの再結合を通じて新しいサンプルを可能にする。
本研究では,ソース間の因子の組換えにより生成したサンプルとを識別するために訓練された識別器を介して,逆方向のトレーニング信号を導入する。
提案手法は,CelebA-HQ,Virtual KITTI,CLEVR,Falcor3Dにおける先行ベースラインの実装よりも優れており,MIGとMCCが測定したより低いFIDスコアとより良いアンタングルを実現している。
- 参考スコア(独自算出の注目度): 41.14254731598591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decomposing complex data into factorized representations can reveal reusable components and enable synthesizing new samples via component recombination. We investigate this in the context of diffusion-based models that learn factorized latent spaces without factor-level supervision. In images, factors can capture background, illumination, and object attributes; in robotic videos, they can capture reusable motion components. To improve both latent factor discovery and quality of compositional generation, we introduce an adversarial training signal via a discriminator trained to distinguish between single-source samples and those generated by recombining factors across sources. By optimizing the generator to fool this discriminator, we encourage physical and semantic consistency in the resulting recombinations. Our method outperforms implementations of prior baselines on CelebA-HQ, Virtual KITTI, CLEVR, and Falcor3D, achieving lower FID scores and better disentanglement as measured by MIG and MCC. Furthermore, we demonstrate a novel application to robotic video trajectories: by recombining learned action components, we generate diverse sequences that significantly increase state-space coverage for exploration on the LIBERO benchmark.
- Abstract(参考訳): 複雑なデータを因子化表現に分解することで、再利用可能なコンポーネントを明らかにし、コンポーネントの組換えによる新しいサンプルの合成を可能にする。
本研究では,因子レベルの監督を伴わずに因数分解された潜在空間を学習する拡散モデルという文脈でこれを考察する。
画像では、要因は背景、照明、オブジェクト属性をキャプチャすることができ、ロボットビデオでは再利用可能なモーションコンポーネントをキャプチャすることができる。
潜伏因子の発見と合成生成の質を改善するために,単一ソースサンプルとソース間の因子の組換えにより生成した因子を識別する識別器を用いて,敵対的学習信号を導入する。
生成元を最適化してこの判別器を騙すことにより、結果として生じる組換えにおける物理的および意味的な一貫性を奨励する。
提案手法は,CelebA-HQ,Virtual KITTI,CLEVR,Falcor3Dにおける先行ベースラインの実装よりも優れており,MIGとMCCが測定したより低いFIDスコアとより良いアンタングルを実現している。
さらに,ロボットビデオトラジェクトリへの新たな応用として,学習したアクションコンポーネントを組み換えることで,LIBEROベンチマークにおける状態空間カバレッジを大幅に向上させる多種多様なシーケンスを生成する。
関連論文リスト
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Enhancing Diffusion Face Generation with Contrastive Embeddings and SegFormer Guidance [0.0]
小型のCelebAMask-HQデータセット上で,人間の顔生成のための拡散モデルのベンチマークを示す。
本研究では,未条件生成のためのUNetとDiTアーキテクチャを比較し,事前学習した安定拡散モデルのLoRAによる微調整について検討する。
論文 参考訳(メタデータ) (2025-08-13T14:27:47Z) - Diffusion-based Layer-wise Semantic Reconstruction for Unsupervised Out-of-Distribution Detection [30.02748131967826]
教師なしのアウト・オブ・ディストリビューション(OOD)検出は、未ラベルのIn-Distribution(ID)トレーニングサンプルからのみ学習することで、ドメイン外のデータを識別することを目的としている。
現在の再構成手法は, 画素/機能空間における入力と対応する生成物間の再構成誤差を測定することで, 優れた代替手法を提供する。
拡散に基づく階層的意味再構成手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T04:54:07Z) - Specularity Factorization for Low-Light Enhancement [2.7961648901433134]
本稿では,複数の潜伏成分からなる画像を扱う付加的な画像分解手法を提案する。
当社のモデル駆動型EM RSFNetは,最適化をネットワーク層に展開することで,これらの要因を推定する。
結果の因子は設計によって解釈可能であり、ネットワークを介して異なる画像強調タスクに融合したり、直接ユーザによって結合したりすることができる。
論文 参考訳(メタデータ) (2024-04-02T14:41:42Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - GLOWin: A Flow-based Invertible Generative Framework for Learning
Disentangled Feature Representations in Medical Images [40.58581577183134]
可逆関数によるデータ分布を直接モデル化することにより,現実的な画像を生成するフローベースの生成モデルが提案されている。
本稿では, エンドツーエンドのインバータブルで, 絡み合った表現を学習できる, フローベースの生成モデルフレームワーク glowin を提案する。
論文 参考訳(メタデータ) (2021-03-19T15:47:01Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z) - Learning Hybrid Representation by Robust Dictionary Learning in
Factorized Compressed Space [84.37923242430999]
本研究では,高次圧縮空間における高次低ランクとスパース表現のハイブリッド化を実現するために,頑健な辞書学習(DL)について検討する。
共用ロバスト因子化と射影辞書学習(J-RFDL)モデルを提案する。
論文 参考訳(メタデータ) (2019-12-26T06:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。