論文の概要: DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval
- arxiv url: http://arxiv.org/abs/2509.04193v1
- Date: Thu, 04 Sep 2025 13:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.169248
- Title: DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval
- Title(参考訳): DUDE:拡散に基づく教師なしクロスドメイン画像検索
- Authors: Ruohong Yang, Peng Hu, Yunfan Li, Xi Peng,
- Abstract要約: 教師なしクロスドメイン画像検索(UCIR)は、アノテーションに頼ることなく、さまざまなドメインで同じカテゴリの画像を取得することを目的としている。
画像全体のクロスドメイン機能を整列する既存のUCIRメソッドは、しばしばドメインギャップに悩まされる。
本稿では,特徴分散に基づく新しいUCIR手法であるDUDEを提案する。
- 参考スコア(独自算出の注目度): 25.89035776794712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images of the same category across diverse domains without relying on annotations. Existing UCIR methods, which align cross-domain features for the entire image, often struggle with the domain gap, as the object features critical for retrieval are frequently entangled with domain-specific styles. To address this challenge, we propose DUDE, a novel UCIR method building upon feature disentanglement. In brief, DUDE leverages a text-to-image generative model to disentangle object features from domain-specific styles, thus facilitating semantical image retrieval. To further achieve reliable alignment of the disentangled object features, DUDE aligns mutual neighbors from within domains to across domains in a progressive manner. Extensive experiments demonstrate that DUDE achieves state-of-the-art performance across three benchmark datasets over 13 domains. The code will be released.
- Abstract(参考訳): 教師なしクロスドメイン画像検索(UCIR)は、アノテーションに頼ることなく、さまざまなドメインで同じカテゴリの画像を取得することを目的としている。
画像全体のクロスドメイン特徴を整列する既存のUCIR法は、検索に不可欠なオブジェクトの特徴がドメイン固有のスタイルと絡み合っているため、しばしばドメインギャップに悩まされる。
この課題に対処するため,機能障害に基づく新しいUCIR手法であるDUDEを提案する。
簡単に言うと、DUDEはテキストから画像への生成モデルを利用して、オブジェクトの特徴をドメイン固有のスタイルから切り離し、セマンティックな画像検索を容易にする。
さらに、不整合オブジェクトの特徴の信頼性の高いアライメントを実現するために、DUDEは、ドメイン内からドメイン間の相互隣同士をプログレッシブな方法で整列させる。
大規模な実験により、DUDEは13ドメインにわたる3つのベンチマークデータセットで最先端のパフォーマンスを実現する。
コードはリリースされます。
関連論文リスト
- FPL+: Filtered Pseudo Label-based Unsupervised Cross-Modality Adaptation for 3D Medical Image Segmentation [14.925162565630185]
医用画像分割のための拡張フィルタ擬似ラベル (FPL+) を用いたUnsupervised Domain Adaptation (UDA) 手法を提案する。
まず、ソースドメイン内のラベル付き画像を、擬似ソースドメインセットと擬似ターゲットドメインセットからなる二重ドメイントレーニングセットに変換するために、クロスドメインデータ拡張を使用する。
次に、ラベル付きソースドメインイメージとターゲットドメインイメージを擬似ラベルと組み合わせて最終セグメンタを訓練し、不確実性推定に基づく画像レベルの重み付けとデュアルドメインのコンセンサスに基づく画素レベルの重み付けを提案し、ノイズのある擬似の悪影響を軽減する。
論文 参考訳(メタデータ) (2024-04-07T14:21:37Z) - A Multimodal Approach for Cross-Domain Image Retrieval [5.5547914920738]
クロスドメイン画像検索(Cross-Domain Image Retrieval, CDIR)は、コンピュータビジョンにおける課題である。
本稿では、事前学習された視覚言語モデルを活用することで、テキストコンテキストを取り入れた新しい教師なしのCDIRアプローチを提案する。
提案手法は,画像キャプションをドメインに依存しない中間表現として用いる。
論文 参考訳(メタデータ) (2024-03-22T12:08:16Z) - Domain-Scalable Unpaired Image Translation via Latent Space Anchoring [88.7642967393508]
Unpaired Image-to-image Translation (UNIT)は、2つの視覚領域間の画像をペアのトレーニングデータなしでマッピングすることを目的としている。
そこで本研究では、潜在空間アンカーと呼ばれる新しい領域スケーリング可能なUNIT手法を提案する。
本手法は, 軽量エンコーダと回帰器モデルを学習することにより, 異なる領域の画像を, 凍ったGANと同じ潜伏空間に固定する。
推論フェーズでは、異なるドメインの学習エンコーダとデコーダを任意に組み合わせて、微調整なしで任意の2つのドメイン間で画像を変換することができる。
論文 参考訳(メタデータ) (2023-06-26T17:50:02Z) - Correspondence-Free Domain Alignment for Unsupervised Cross-Domain Image
Retrieval [25.43019715242141]
クロスドメイン画像検索は、異なるドメインにまたがる画像を取得して、クロスドメインの分類や対応関係を探索することを目的としている。
ドメイン間の通信を使わずに、異なるドメインを整列し、ブリッジすることは困難である。
クロスドメインギャップを解消するために,新しい対応ドメインフリーアライメント(CoDA)法を提案する。
本手法は,教師なしクロスドメイン画像検索のための領域不変な埋め込み空間への識別を符号化する。
論文 参考訳(メタデータ) (2023-02-13T03:34:49Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval [55.122020263319634]
ビデオモーメント検索(VMR)は、与えられた言語クエリに従って、未編集のビデオからターゲットモーメントをローカライズすることを目的としている。
本稿では、新しいタスクであるクロスドメインVMRに焦点を当て、完全なアノテーション付きデータセットをひとつのドメインで利用できるが、関心のあるドメインは、注釈なしのデータセットのみを含む。
本稿では、アノテーションの知識をソースドメインからターゲットドメインに転送するマルチモーダル・クロスドメインアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T12:58:20Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Variational Interaction Information Maximization for Cross-domain
Disentanglement [34.08140408283391]
ドメイン間の絡み合いは、ドメイン不変表現とドメイン固有表現に分割された表現の学習の問題である。
複数の情報制約の共用目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。
ゼロショットスケッチに基づく画像検索タスクにおいて,本モデルが最新性能を達成することを示した。
論文 参考訳(メタデータ) (2020-12-08T07:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。