論文の概要: Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge
- arxiv url: http://arxiv.org/abs/2602.16664v1
- Date: Wed, 18 Feb 2026 18:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.674772
- Title: Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge
- Title(参考訳): 自己監督型セマンティックブリッジによる画像間翻訳
- Authors: Jiaming Liu, Felix Petersen, Yunhe Gao, Yabin Zhang, Hyojin Kim, Akshay S. Chaudhari, Yu Sun, Stefano Ermon, Sergios Gatidis,
- Abstract要約: 逆拡散法と拡散反転法は、未ペア画像から画像への変換を先進的に進めているが、それぞれが鍵となる制限に直面している。
本稿では,外部意味を拡散ブリッジモデルに統合する汎用フレームワークであるSelf-Supervised Semantic Bridge (SSB)を提案する。
我々のキーとなる考え方は、自己教師付き視覚エンコーダを活用して、外観変化に不変な表現を学習するが、幾何学的構造を捉えることである。
- 参考スコア(独自算出の注目度): 59.247871132422006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial diffusion and diffusion-inversion methods have advanced unpaired image-to-image translation, but each faces key limitations. Adversarial approaches require target-domain adversarial loss during training, which can limit generalization to unseen data, while diffusion-inversion methods often produce low-fidelity translations due to imperfect inversion into noise-latent representations. In this work, we propose the Self-Supervised Semantic Bridge (SSB), a versatile framework that integrates external semantic priors into diffusion bridge models to enable spatially faithful translation without cross-domain supervision. Our key idea is to leverage self-supervised visual encoders to learn representations that are invariant to appearance changes but capture geometric structure, forming a shared latent space that conditions the diffusion bridges. Extensive experiments show that SSB outperforms strong prior methods for challenging medical image synthesis in both in-domain and out-of-domain settings, and extends easily to high-quality text-guided editing.
- Abstract(参考訳): 逆拡散法と拡散反転法は、未ペア画像から画像への変換を先進的に進めているが、それぞれが鍵となる制限に直面している。
逆方向のアプローチでは、トレーニング中にターゲットドメインの逆方向の損失が要求され、これは一般化を目に見えないデータに制限するが、拡散反転法はノイズラテント表現への不完全な反転のために、しばしば低忠実度変換を生成する。
本研究では,外部意味論を拡散ブリッジモデルに統合し,ドメイン横断の監督なしに空間的に忠実な翻訳を可能にする,汎用的なフレームワークであるSelf-Supervised Semantic Bridge (SSB)を提案する。
我々のキーとなる考え方は、自己監督型視覚エンコーダを利用して、外観変化に不変な表現を学習し、幾何学的構造を捉え、拡散ブリッジを条件づけた共有潜在空間を形成することである。
SSBは、ドメイン内およびドメイン外設定の両方において、医用画像合成に挑戦する強力な先行手法より優れており、高品質なテキストガイド編集に容易に拡張可能である。
関連論文リスト
- Universal Image Immunization against Diffusion-based Image Editing via Semantic Injection [29.203173410857914]
本稿では,1つの広く適用可能な対向摂動を生成する最初の普遍的イメージ免疫フレームワークを提案する。
本手法は,標的攻撃に使用されるUAP(Universal Adversarial Perturbation)技術にヒントを得て,セマンティックターゲットを保護対象画像に埋め込むUAPを生成する。
提案手法は,UAPを介して画像中の元の意味内容を上書きすることで,悪意ある編集の試みを効果的に阻止する。
論文 参考訳(メタデータ) (2026-02-16T12:08:37Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score [4.8677910801584385]
大規模テキスト・画像生成モデルは、多彩で高品質な画像を合成する顕著な能力を示している。
本稿では,テキスト・ツー・イメージ拡散モデルのリッチな生成モデルを活用するフレームワークであるDual Contrastive Denoising Scoreを提案する。
本手法は,入力画像と出力画像間のフレキシブルなコンテンツ修正と構造保存,およびゼロショット画像から画像への変換を実現する。
論文 参考訳(メタデータ) (2025-08-18T08:30:07Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。