論文の概要: Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings
- arxiv url: http://arxiv.org/abs/2002.06661v1
- Date: Sun, 16 Feb 2020 19:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 18:16:55.709987
- Title: Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings
- Title(参考訳): 多対多クロスドメインマッピングにおける潜在正規化フロー
- Authors: Shweta Mahajan, Iryna Gurevych, Stefan Roth
- Abstract要約: 画像とテキストの合同表現の学習は、画像キャプションのようないくつかの重要なドメイン横断タスクのバックボーンを形成する。
ドメイン間の共有情報とドメイン固有の情報を個別にモデル化する,新しい半教師付きフレームワークを提案する。
画像キャプションやテキスト・ツー・イメージ合成など,様々なタスクにおけるモデルの有効性を示す。
- 参考スコア(独自算出の注目度): 76.85673049332428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned joint representations of images and text form the backbone of several
important cross-domain tasks such as image captioning. Prior work mostly maps
both domains into a common latent representation in a purely supervised
fashion. This is rather restrictive, however, as the two domains follow
distinct generative processes. Therefore, we propose a novel semi-supervised
framework, which models shared information between domains and domain-specific
information separately. The information shared between the domains is aligned
with an invertible neural network. Our model integrates normalizing flow-based
priors for the domain-specific information, which allows us to learn diverse
many-to-many mappings between the two domains. We demonstrate the effectiveness
of our model on diverse tasks, including image captioning and text-to-image
synthesis.
- Abstract(参考訳): 画像とテキストの合同表現は、画像キャプションのようないくつかの重要なクロスドメインタスクのバックボーンを形成する。
先行研究は、主に両方の領域を純粋に監督された方法で共通の潜在表現にマッピングする。
しかし、2つの領域は異なる生成過程に従うため、これはかなり制限的である。
そこで本研究では,ドメイン間の情報共有を個別にモデル化する半教師付きフレームワークを提案する。
ドメイン間で共有される情報は、可逆ニューラルネットワークと整合する。
私たちのモデルは、ドメイン固有の情報のフローベースの優先順位を正規化することで、2つのドメイン間の多様な多対多マッピングを学べます。
画像キャプションやテキストから画像への合成など,様々なタスクにおけるモデルの有効性を実証する。
関連論文リスト
- Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval [55.122020263319634]
ビデオモーメント検索(VMR)は、与えられた言語クエリに従って、未編集のビデオからターゲットモーメントをローカライズすることを目的としている。
本稿では、新しいタスクであるクロスドメインVMRに焦点を当て、完全なアノテーション付きデータセットをひとつのドメインで利用できるが、関心のあるドメインは、注釈なしのデータセットのみを含む。
本稿では、アノテーションの知識をソースドメインからターゲットドメインに転送するマルチモーダル・クロスドメインアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T12:58:20Z) - Dual-Domain Image Synthesis using Segmentation-Guided GAN [33.00724627120716]
2つの異なる領域の特徴を統合した画像合成のためのセグメンテーション誘導手法を提案する。
我々の二重領域モデルで合成された画像は、セマンティックマスク内の1つの領域に属し、残りの領域では別の領域に属します。
論文 参考訳(メタデータ) (2022-04-19T17:25:54Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Variational Interaction Information Maximization for Cross-domain
Disentanglement [34.08140408283391]
ドメイン間の絡み合いは、ドメイン不変表現とドメイン固有表現に分割された表現の学習の問題である。
複数の情報制約の共用目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。
ゼロショットスケッチに基づく画像検索タスクにおいて,本モデルが最新性能を達成することを示した。
論文 参考訳(メタデータ) (2020-12-08T07:11:35Z) - Unsupervised Wasserstein Distance Guided Domain Adaptation for 3D
Multi-Domain Liver Segmentation [14.639633860575621]
非教師なしドメイン適応は、ソースドメインから新たなターゲットドメインに医用画像に基づいてトレーニングされた堅牢なモデルを適用する際に、ネットワーク性能を改善することを目的としている。
本稿では,ワッサースタイン距離誘導不整合表現に基づく3次元マルチドメイン肝セグメンテーションの手法を提案する。
論文 参考訳(メタデータ) (2020-09-06T23:48:27Z) - Domain2Vec: Domain Embedding for Unsupervised Domain Adaptation [56.94873619509414]
従来の教師なしドメイン適応は、限られた数のドメイン間の知識伝達を研究する。
本稿では,特徴不整合とグラム行列の連成学習に基づいて,視覚領域のベクトル表現を提供する新しいDomain2Vecモデルを提案する。
我々の埋め込みは、異なるドメイン間の視覚的関係に関する直感と一致するドメイン類似性を予測できることを示した。
論文 参考訳(メタデータ) (2020-07-17T22:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。