Fugu-MT 論文翻訳(概要): Self-Supervised Learning of Domain Invariant Features for Depth Estimation

論文の概要: Self-Supervised Learning of Domain Invariant Features for Depth Estimation

arxiv url: http://arxiv.org/abs/2106.02594v2
Date: Mon, 7 Jun 2021 17:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 11:36:43.387968
Title: Self-Supervised Learning of Domain Invariant Features for Depth Estimation
Title（参考訳）: 深さ推定のための領域不変特徴の自己教師付き学習
Authors: Hiroyasu Akada, Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka
Abstract要約: 単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
参考スコア（独自算出の注目度）: 35.74969527929284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We tackle the problem of unsupervised synthetic-to-realistic domain adaptation for single image depth estimation. An essential building block of single image depth estimation is an encoder-decoder task network that takes RGB images as input and produces depth maps as output. In this paper, we propose a novel training strategy to force the task network to learn domain invariant representations in a self-supervised manner. Specifically, we extend self-supervised learning from traditional representation learning, which works on images from a single domain, to domain invariant representation learning, which works on images from two different domains by utilizing an image-to-image translation network. Firstly, we use our bidirectional image-to-image translation network to transfer domain-specific styles between synthetic and real domains. This style transfer operation allows us to obtain similar images from the different domains. Secondly, we jointly train our task network and Siamese network with the same images from the different domains to obtain domain invariance for the task network. Finally, we fine-tune the task network using labeled synthetic and unlabeled real-world data. Our training strategy yields improved generalization capability in the real-world domain. We carry out an extensive evaluation on two popular datasets for depth estimation, KITTI and Make3D. The results demonstrate that our proposed method outperforms the state-of-the-art both qualitatively and quantitatively. The source code and model weights will be made available.
Abstract（参考訳）: 単一画像深度推定のための教師なし合成-現実的領域適応の問題に取り組む。単一画像深度推定の重要なビルディングブロックは、rgb画像を入力として出力として深度マップを生成するエンコーダ/デコーダタスクネットワークである。本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。具体的には、1つのドメインからの画像を扱う従来の表現学習から、2つのドメインからの画像を扱うドメイン不変表現学習まで、画像から画像への変換ネットワークを利用して自己教師付き学習を拡張する。まず、双方向画像変換ネットワークを用いて、ドメイン固有のスタイルを合成ドメインと実ドメイン間で転送する。このスタイルの転送操作により、異なるドメインから同様の画像を得ることができる。第2に、タスクネットワークと、異なるドメインから同じイメージを持つシャムネットワークを共同で訓練し、タスクネットワークに対するドメイン不変性を得る。最後に,ラベル付き実世界のデータを用いてタスクネットワークを微調整する。トレーニング戦略は,実世界の領域における一般化能力の向上をもたらす。深度推定のための2つの一般的なデータセットであるKITTIとMake3Dについて広範な評価を行う。その結果,提案手法は定性的にも定量的にも最先端の手法よりも優れていた。ソースコードとモデルの重み付けが利用可能になる。

関連論文リスト

Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文参考訳（メタデータ） (2024-03-11T10:48:56Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)
Domain-Scalable Unpaired Image Translation via Latent Space Anchoring [88.7642967393508]
Unpaired Image-to-image Translation (UNIT)は、2つの視覚領域間の画像をペアのトレーニングデータなしでマッピングすることを目的としている。そこで本研究では、潜在空間アンカーと呼ばれる新しい領域スケーリング可能なUNIT手法を提案する。本手法は, 軽量エンコーダと回帰器モデルを学習することにより, 異なる領域の画像を, 凍ったGANと同じ潜伏空間に固定する。推論フェーズでは、異なるドメインの学習エンコーダとデコーダを任意に組み合わせて、微調整なしで任意の2つのドメイン間で画像を変換することができる。
論文参考訳（メタデータ） (2023-06-26T17:50:02Z)
ACE: Zero-Shot Image to Image Translation via Pretrained Auto-Contrastive-Encoder [2.1874189959020427]
本研究では,同じデータ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。 ACEの設計により、画像翻訳タスクのトレーニングを初めて行うことなく、ゼロショット画像から画像への変換を実現することができる。本モデルは,ゼロショット学習を用いたマルチモーダル画像翻訳タスクにおける競合的な結果も達成する。
論文参考訳（メタデータ） (2023-02-22T23:52:23Z)
Domain Invariant Masked Autoencoders for Self-supervised Learning from Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。 PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文参考訳（メタデータ） (2022-05-10T09:49:40Z)
Leveraging in-domain supervision for unsupervised image-to-image translation tasks via multi-stream generators [4.726777092009554]
本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
論文参考訳（メタデータ） (2021-12-30T15:29:36Z)
Joint Learning of Neural Transfer and Architecture Adaptation for Image Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文参考訳（メタデータ） (2021-03-31T08:15:17Z)
DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文参考訳（メタデータ） (2020-10-13T07:28:39Z)
Crossing-Domain Generative Adversarial Networks for Unsupervised Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文参考訳（メタデータ） (2020-08-27T01:54:07Z)
Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文参考訳（メタデータ） (2020-06-16T17:06:02Z)
SharinGAN: Combining Synthetic and Real Data for Unsupervised Geometry Estimation [18.29202999419042]
本稿では,学習ネットワークにおける合成画像と実画像を組み合わせる新しい手法を提案する。両画像の型を1つの共有ドメインにマッピングする方法を提案する。本実験は,2つの重要な領域における最先端技術に対する顕著な改善を実証した。
論文参考訳（メタデータ） (2020-06-07T02:45:33Z)
CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-09T19:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。