論文の概要: EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic
Differential Equations
- arxiv url: http://arxiv.org/abs/2207.06635v1
- Date: Thu, 14 Jul 2022 03:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:35:09.319247
- Title: EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic
Differential Equations
- Title(参考訳): EGSDE:エネルギー誘導確率微分方程式による画像間変換
- Authors: Min Zhao, Fan Bao, Chongxuan Li, Jun Zhu
- Abstract要約: 本稿では,エネルギー誘導型微分方程式(EGSDE)を提案する。この方程式は,エネルギー関数をソース領域とターゲット領域の両方で事前学習し,実感的かつ忠実なI2Iのための事前学習されたSDEの推論過程を導出する。
EGSDEは、既存のメソッドをほぼすべての設定で一貫して上回るだけでなく、忠実なパフォーマンスを損なうことなく、SOTAリアリズムの結果も達成している。
- 参考スコア(独自算出の注目度): 39.54153714565214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based diffusion generative models (SDGMs) have achieved the SOTA FID
results in unpaired image-to-image translation (I2I). However, we notice that
existing methods totally ignore the training data in the source domain, leading
to sub-optimal solutions for unpaired I2I. To this end, we propose
energy-guided stochastic differential equations (EGSDE) that employs an energy
function pretrained on both the source and target domains to guide the
inference process of a pretrained SDE for realistic and faithful unpaired I2I.
Building upon two feature extractors, we carefully design the energy function
such that it encourages the transferred image to preserve the
domain-independent features and discard domainspecific ones. Further, we
provide an alternative explanation of the EGSDE as a product of experts, where
each of the three experts (corresponding to the SDE and two feature extractors)
solely contributes to faithfulness or realism. Empirically, we compare EGSDE to
a large family of baselines on three widely-adopted unpaired I2I tasks under
four metrics. EGSDE not only consistently outperforms existing SDGMs-based
methods in almost all settings but also achieves the SOTA realism results
(e.g., FID of 65.82 in Cat to Dog and FID of 59.75 in Wild to Dog on AFHQ)
without harming the faithful performance.
- Abstract(参考訳): スコアベース拡散生成モデル (SDGM) は、画像-画像間翻訳 (I2I) においてSOTA FIDの結果を得た。
しかし、既存の手法は、ソースドメインのトレーニングデータを完全に無視しているため、未ペアI2Iのサブ最適化ソリューションに繋がる。
そこで,本研究では,ソース領域とターゲット領域の両方に事前学習されたエネルギー関数を用いたエネルギー誘導確率微分方程式 (egsde) を提案し,現実的で忠実な i2i に対する事前学習された sde の推論過程を導出する。
2つの特徴抽出器上に構築したエネルギー関数を慎重に設計し,ドメインに依存しない特徴を保存し,ドメイン固有の特徴を破棄する。
さらに,3人の専門家(SDEと2人の特徴抽出者に対応する)のそれぞれが忠実さやリアリズムにのみ貢献する専門家の産物としてESGDEの代替的説明を提供する。
経験的に、EGSDEを、広く評価されている3つのI2Iタスクのベースラインを4つのメトリクスで比較する。
EGSDEは既存のSDGMの手法をほぼ全ての設定で一貫して上回るだけでなく、SOTAリアリズムの結果(例えば、キャット・トゥ・ドッグのFID 65.82、ワイルド・トゥ・ドッグのFID 59.75、AFHQのFID 59.75)を、忠実なパフォーマンスを損なうことなく達成している。
関連論文リスト
- A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。
このような共有アーキテクチャは魅力的に思えるかもしれないが、ジェネラリストモデルは、その好奇心に満ちたモデルよりも優れている傾向にある。
一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Flexible SE(2) graph neural networks with applications to PDE surrogates [3.846765283877487]
表現を主軸に整合させることで、SE(2) の等式を保ちながら多くの制約を回避できることが示される。
流体流動シミュレーションのサロゲートとして本モデルを適用し,非同変モデルに対して徹底的なベンチマークを行い,データ効率と精度の両面で有意な向上を示した。
論文 参考訳(メタデータ) (2024-05-30T17:39:15Z) - Self-Supervised Modality-Agnostic Pre-Training of Swin Transformers [0.7496510641958004]
我々はSwin Transformerを拡張して、異なる医用画像モダリティから学習し、下流のパフォーマンスを向上させる。
SwinFUSEと呼ばれるこのモデルは,事前学習中にCT(Computed Tomography)とMRI(Magical Resonance Images)の両方から学習し,補完的な特徴表現をもたらす。
論文 参考訳(メタデータ) (2024-05-21T13:28:32Z) - Elucidating the solution space of extended reverse-time SDE for
diffusion models [54.23536653351234]
拡散モデル(DM)は、様々な生成的モデリングタスクにおいて強力な画像生成能力を示す。
その主な制限はサンプリング速度の遅いことであり、高品質な画像を生成するには数百から数千のシーケンシャルな機能評価が必要である。
サンプリングプロセスを拡張逆時間SDEとして定式化し、ODEやSDEへの事前探索を統一する。
我々は, 高速かつトレーニング不要なサンプル装置ER-SDE-rsを考案し, 全サンプル装置の最先端性能を実現した。
論文 参考訳(メタデータ) (2023-09-12T12:27:17Z) - Semi-Supervised Dual-Stream Self-Attentive Adversarial Graph Contrastive Learning for Cross-Subject EEG-based Emotion Recognition [19.578050094283313]
DS-AGCフレームワークは、クロスオブジェクト脳波に基づく感情認識において、限定ラベル付きデータの課題に取り組むために提案されている。
提案手法は,不完全ラベル条件の異なる既存手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-13T23:54:40Z) - UVCGAN v2: An Improved Cycle-Consistent GAN for Unpaired Image-to-Image
Translation [10.689788782893096]
I2I (unpaired image-to-image) 翻訳技術は、完全に教師なしの方法で2つのデータ領域間のマッピングを求める。
DMはFrechet distance(FID)の観点からI2I翻訳ベンチマークの最先端を保っている
この研究は、最近のUVCGANモデルを改善し、モデルアーキテクチャとトレーニング手順の近代化に資する。
論文 参考訳(メタデータ) (2023-03-28T19:46:34Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Rethinking conditional GAN training: An approach using geometrically
structured latent manifolds [58.07468272236356]
条件付きGAN(cGAN)は、生成された出力の多様性の欠如などの重大な欠点に悩まされる。
本稿では,バニラcGANの多様性と視覚的品質を両立させる新しいトレーニング機構を提案する。
論文 参考訳(メタデータ) (2020-11-25T22:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。