論文の概要: Leveraging Local Domains for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2109.04468v1
- Date: Thu, 9 Sep 2021 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:35:40.092307
- Title: Leveraging Local Domains for Image-to-Image Translation
- Title(参考訳): 画像間翻訳のためのローカルドメインの活用
- Authors: Anthony Dell'Eva, Fabio Pizzati, Massimo Bertozzi, Raoul de Charette
- Abstract要約: イメージ・ツー・イメージ(i2i)ネットワークは、グローバルなシーン構造に影響を与えないため、局所的な変化を捉えるのに苦労する。
我々は「ローカルドメイン」と呼ぶ空間領域特性に関する人間の知識を活用する。
我々は、少数のソースデータに基づいてパッチベースのGANをトレーニングし、新しい未知のドメインを幻覚させ、その後、ターゲットへの転送学習を容易にする。
- 参考スコア(独自算出の注目度): 11.03611991082568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image (i2i) networks struggle to capture local changes because they
do not affect the global scene structure. For example, translating from highway
scenes to offroad, i2i networks easily focus on global color features but
ignore obvious traits for humans like the absence of lane markings. In this
paper, we leverage human knowledge about spatial domain characteristics which
we refer to as 'local domains' and demonstrate its benefit for image-to-image
translation. Relying on a simple geometrical guidance, we train a patch-based
GAN on few source data and hallucinate a new unseen domain which subsequently
eases transfer learning to target. We experiment on three tasks ranging from
unstructured environments to adverse weather. Our comprehensive evaluation
setting shows we are able to generate realistic translations, with minimal
priors, and training only on a few images. Furthermore, when trained on our
translations images we show that all tested proxy tasks are significantly
improved, without ever seeing target domain at training.
- Abstract(参考訳): image-to-image (i2i)ネットワークは、グローバルなシーン構造に影響しないため、ローカルな変更を捉えるのに苦労している。
例えば、高速道路のシーンからオフロードへの翻訳では、i2iネットワークはグローバルカラー機能に容易に焦点を当てるが、車線マークがないなど、人間の明らかな特徴は無視する。
本稿では,「地域ドメイン」と呼ぶ空間領域特性に関する人間知識を活用し,画像から画像への変換に有用性を示す。
単純な幾何学的ガイダンスに頼ることで、パッチベースのganを少数のソースデータでトレーニングし、その後、ターゲットへの転送学習を容易化する、新たなunseenドメインを指導します。
非構造環境から悪天候まで,3つの課題について実験を行った。
我々の総合的な評価設定は、最小限の事前で現実的な翻訳を生成でき、少数の画像でのみ訓練できることを示している。
さらに、翻訳画像のトレーニングでは、テスト対象のドメインをトレーニング時に見ることなく、すべてのプロキシタスクが大幅に改善されていることを示す。
関連論文リスト
- Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Jurassic World Remake: Bringing Ancient Fossils Back to Life via
Zero-Shot Long Image-to-Image Translation [97.40572668025273]
テキスト誘導潜時拡散モデルを用いて、大きな領域ギャップをまたいだゼロショット画像-画像間変換(I2I)を行う。
大きな領域の隙間をまたいで翻訳を実行できることは、犯罪学、占星術、環境保全、古生物学における様々な現実世界の応用がある。
論文 参考訳(メタデータ) (2023-08-14T17:59:31Z) - ACE: Zero-Shot Image to Image Translation via Pretrained
Auto-Contrastive-Encoder [2.1874189959020427]
本研究では,同じデータ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。
ACEの設計により、画像翻訳タスクのトレーニングを初めて行うことなく、ゼロショット画像から画像への変換を実現することができる。
本モデルは,ゼロショット学習を用いたマルチモーダル画像翻訳タスクにおける競合的な結果も達成する。
論文 参考訳(メタデータ) (2023-02-22T23:52:23Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators [4.726777092009554]
本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。
本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:29:36Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - The Spatially-Correlative Loss for Various Image Translation Tasks [69.62228639870114]
シーン構造の一貫性を保つために、シンプルで効率的かつ効果的な新しい空間相関損失を提案します。
以前の方法は、ピクセルレベルのサイクル一貫性または特徴レベルのマッチング損失を使用してこれを試みます。
I2I翻訳の3つのモードすべてにおいて,ベースラインモデルに対して,単一モーダル,マルチモーダル,さらには単一イメージ翻訳において,明確な改善が見られた。
論文 参考訳(メタデータ) (2021-04-02T02:13:30Z) - Crossing-Domain Generative Adversarial Networks for Unsupervised
Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。
提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文 参考訳(メタデータ) (2020-08-27T01:54:07Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。