論文の概要: Auto-Encoding for Shared Cross Domain Feature Representation and
Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2006.11404v1
- Date: Thu, 11 Jun 2020 21:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:27:50.138397
- Title: Auto-Encoding for Shared Cross Domain Feature Representation and
Image-to-Image Translation
- Title(参考訳): 共有領域特徴表現と画像間変換の自動符号化
- Authors: Safalya Pal
- Abstract要約: クロスドメイン画像から画像への変換はコンピュータビジョンとパターン認識問題のサブセットである。
単一エンコーダ・デコーダアーキテクチャを用いて,複数の領域にまたがるクロスドメイン画像と画像の変換を行う手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation is a subset of computer vision and pattern
recognition problems where our goal is to learn a mapping between input images
of domain $\mathbf{X}_1$ and output images of domain $\mathbf{X}_2$. Current
methods use neural networks with an encoder-decoder structure to learn a
mapping $G:\mathbf{X}_1 \to\mathbf{X}_2$ such that the distribution of images
from $\mathbf{X}_2$ and $G(\mathbf{X}_1)$ are identical, where $G(\mathbf{X}_1)
= d_G (f_G (\mathbf{X}_1))$ and $f_G (\cdot)$ is referred as the encoder and
$d_G(\cdot)$ is referred to as the decoder. Currently, such methods which also
compute an inverse mapping $F:\mathbf{X}_2 \to \mathbf{X}_1$ use a separate
encoder-decoder pair $d_F (f_F (\mathbf{X}_2))$ or at least a separate decoder
$d_F (\cdot)$ to do so. Here we introduce a method to perform cross domain
image-to-image translation across multiple domains using a single
encoder-decoder architecture. We use an auto-encoder network which given an
input image $\mathbf{X}_1$, first computes a latent domain encoding $Z_d = f_d
(\mathbf{X}_1)$ and a latent content encoding $Z_c = f_c (\mathbf{X}_1)$, where
the domain encoding $Z_d$ and content encoding $Z_c$ are independent. And then
a decoder network $g(Z_d,Z_c)$ creates a reconstruction of the original image
$\mathbf{\widehat{X}}_1=g(Z_d,Z_c )\approx \mathbf{X}_1$. Ideally, the domain
encoding $Z_d$ contains no information regarding the content of the image and
the content encoding $Z_c$ contains no information regarding the domain of the
image. We use this property of the encodings to find the mapping across domains
$G: X\to Y$ by simply changing the domain encoding $Z_d$ of the decoder's
input. $G(\mathbf{X}_1 )=d(f_d (\mathbf{x}_2^i ),f_c (\mathbf{X}_1))$ where
$\mathbf{x}_2^i$ is the $i^{th}$ observation of $\mathbf{X}_2$.
- Abstract(参考訳): 画像から画像への変換はコンピュータビジョンとパターン認識問題のサブセットであり、ドメイン$\mathbf{X}_1$の入力画像とドメイン$\mathbf{X}_2$の出力画像とのマッピングを学習することを目的としています。
現在の方法では、エンコーダ-デコーダ構造を持つニューラルネットワークを用いて、$G:\mathbf{X}_1 \to\mathbf{X}_2$と$G(\mathbf{X}_1)$の像の分布が同一であり、$G(\mathbf{X}_1) = d_G (f_G (\mathbf{X}_1))$と$f_G(\cdot)$がエンコーダと呼ばれ、$d_G(\cdot)$がデコーダと呼ばれるようにマッピングを学習している。
現在、逆写像 $F:\mathbf{X}_2 \to \mathbf{X}_1$ も計算するそのような方法は、別のエンコーダ-デコーダ対 $d_F (f_F (\mathbf{X}_2))$ または少なくとも別のデコーダ $d_F (\cdot)$ を用いる。
本稿では,単一エンコーダ・デコーダアーキテクチャを用いて,複数のドメイン間のクロスドメイン画像・画像変換を行う手法を提案する。
まず、Z_d = f_d (\mathbf{X}_1)$を符号化する潜在ドメインと、Z_c = f_c (\mathbf{X}_1)$を符号化する潜時コンテンツとを演算し、Z_d$を符号化するドメインとZ_c$を符号化するコンテンツとを独立に演算する。
そしてデコーダネットワーク $g(Z_d,Z_c)$ は元のイメージ $\mathbf{\widehat{X}}_1=g(Z_d,Z_c )\approx \mathbf{X}_1$ の再構成を生成する。
理想的には、$Z_d$を符号化するドメインは画像の内容に関する情報を含まず、$Z_c$を符号化するコンテンツは画像の領域に関する情報を含まない。
デコーダの入力の$z_d$を単純にエンコードするドメインを変更することで、このエンコーディングの特性を利用して、ドメイン間のマッピングを見つけます。
$G(\mathbf{X}_1 )=d(f_d (\mathbf{x}_2^i ),f_c (\mathbf{X}_1))$ ここで $\mathbf{x}_2^i$ は $i^{th}$ $\mathbf{X}_2$ の観測である。
関連論文リスト
- Efficient $1$-bit tensor approximations [1.104960878651584]
我々のアルゴリズムは、20ドルの擬似符号で効率よく符号付きカット分解を行う。
オープンテキストMistral-7B-v0.1大言語モデルの重み行列を50%の空間圧縮に近似する。
論文 参考訳(メタデータ) (2024-10-02T17:56:32Z) - Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。
我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - SQ Lower Bounds for Learning Mixtures of Linear Classifiers [43.63696593768504]
この問題に対する既知のアルゴリズムは、一様混合の特別な場合であっても、本質的には最善であることを示す。
重要な技術的要素は、独立した関心を持つかもしれない球面設計の新たな構築である。
論文 参考訳(メタデータ) (2023-10-18T10:56:57Z) - $\ell_p$-Regression in the Arbitrary Partition Model of Communication [59.89387020011663]
コーディネータモデルにおける分散$ell_p$-regression問題のランダム化通信複雑性について考察する。
p = 2$、すなわち最小二乗回帰の場合、$tildeTheta(sd2 + sd/epsilon)$ bitsの最初の最適境界を与える。
p in (1,2)$ に対して、$tildeO(sd2/epsilon + sd/mathrmpoly(epsilon)$ upper bound を得る。
論文 参考訳(メタデータ) (2023-07-11T08:51:53Z) - Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix
Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。
目標は、低ランク因子の積として$mathbfA$を近似することである。
我々の手法はBMF問題の他の一般的な変種に一般化する。
論文 参考訳(メタデータ) (2023-06-02T18:55:27Z) - Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space
Viewpoint [76.00222741383375]
GANのインバージョンとStyleGANによる編集は、入力されたイメージを(mathcalW$, $mathcalW+$, $mathcalF$)埋め込みスペースにマッピングし、画像の忠実さと意味のある操作を同時に維持する。
最近のGANインバージョンメソッドでは、編集性を維持しながら再構築の忠実性を改善するために$mathcalW+$と$mathcalF$を探索する。
我々は、$mathcalW$と正確な潜伏者のための画像空間を整列するために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T13:35:32Z) - Fast Graph Sampling for Short Video Summarization using Gershgorin Disc
Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。
実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文 参考訳(メタデータ) (2021-10-21T18:43:00Z) - Phase Transitions in Rate Distortion Theory and Deep Learning [5.145741425164946]
もし$mathcalS$をエンコードするために$mathcalO(R-s)$のエラーを達成できれば、$mathcalS$は$s$で圧縮できると言う。
ある"ニッチ"信号クラスに対して、$mathcalS$が相転移を起こすことを示す。
論文 参考訳(メタデータ) (2020-08-03T16:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。