論文の概要: Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators
- arxiv url: http://arxiv.org/abs/2112.15091v1
- Date: Thu, 30 Dec 2021 15:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 13:19:57.688567
- Title: Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators
- Title(参考訳): マルチストリームジェネレータによる教師なし画像間翻訳タスクのドメイン内監視の活用
- Authors: Dvir Yerushalmi, Dov Danon, Amit H. Bermano
- Abstract要約: 本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。
本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Supervision for image-to-image translation (I2I) tasks is hard to come by,
but bears significant effect on the resulting quality. In this paper, we
observe that for many Unsupervised I2I (UI2I) scenarios, one domain is more
familiar than the other, and offers in-domain prior knowledge, such as semantic
segmentation. We argue that for complex scenes, figuring out the semantic
structure of the domain is hard, especially with no supervision, but is an
important part of a successful I2I operation. We hence introduce two techniques
to incorporate this invaluable in-domain prior knowledge for the benefit of
translation quality: through a novel Multi-Stream generator architecture, and
through a semantic segmentation-based regularization loss term. In essence, we
propose splitting the input data according to semantic masks, explicitly
guiding the network to different behavior for the different regions of the
image. In addition, we propose training a semantic segmentation network along
with the translation task, and to leverage this output as a loss term that
improves robustness. We validate our approach on urban data, demonstrating
superior quality in the challenging UI2I tasks of converting day images to
night ones. In addition, we also demonstrate how reinforcing the target dataset
with our augmented images improves the training of downstream tasks such as the
classical detection one.
- Abstract(参考訳): イメージ・ツー・イメージ翻訳(I2I)タスクのスーパービジョンは難しいが、結果として得られる品質に大きな影響を及ぼす。
本稿では、多くのUnsupervised I2I(UI2I)シナリオにおいて、一方のドメインは他方よりも親しみやすく、意味的セグメンテーションのようなドメイン内の事前知識を提供する。
複雑な場面では、ドメインのセマンティック構造を理解することは、特に監督なしでは困難であるが、I2I操作の成功の重要な部分である。
そこで我々は,新しいマルチストリームジェネレータアーキテクチャとセマンティックセグメンテーションに基づく正規化損失項によって,翻訳品質の恩恵を受けるために,このドメイン内知識を組み込む2つの手法を導入する。
本質的には,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
都市データに対する我々のアプローチを検証し、昼の画像を夜のものに変換する難しいUI2Iタスクにおいて優れた品質を示す。
さらに,拡張画像によるターゲットデータセットの強化により,古典的検出タスクなどの下流タスクのトレーニングが向上することを示す。
関連論文リスト
- Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic
Segmentation [13.87939140266266]
完全ラベル付きソースデータセットと少数のラベルしか持たないターゲットデータセットを用いて,LiDARセマンティックセマンティックセマンティクスネットワークをトレーニングする問題に対処する。
我々は、新しい画像から画像への変換エンジンを開発し、それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで、HYLDAと呼ばれる統合ドメイン適応アーキテクチャを実現する。
論文 参考訳(メタデータ) (2022-01-14T18:13:09Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Crossing-Domain Generative Adversarial Networks for Unsupervised
Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。
提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文 参考訳(メタデータ) (2020-08-27T01:54:07Z) - TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired
Images [102.4003329297039]
教師なし画像画像変換(UI2I)タスクは、ペア画像のない2つのドメイン間のマッピングを学習する。
本研究では,2つの未ペア画像のみをトレーニングし,ワンショットで教師なし学習を行う生成モデルTuiGANを提案する。
論文 参考訳(メタデータ) (2020-04-09T16:23:59Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。