論文の概要: Multifactor Sequential Disentanglement via Structured Koopman
Autoencoders
- arxiv url: http://arxiv.org/abs/2303.17264v1
- Date: Thu, 30 Mar 2023 10:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:49:22.174849
- Title: Multifactor Sequential Disentanglement via Structured Koopman
Autoencoders
- Title(参考訳): 構造付きクープマンオートエンコーダによる多要素逐次歪み
- Authors: Nimrod Berman, Ilan Naiman, Omri Azencot
- Abstract要約: 複数の意味的不整合成分が生成される多要素不整合について考察する。
我々のアプローチの鍵は強い帰納バイアスであり、そこでは基礎となる力学が潜在空間において線形に表現できると仮定する。
本稿では,完全教師なしで多要素不整合をサポートする,単純で簡単な新しい深層モデルを提案する。
- 参考スコア(独自算出の注目度): 2.7759072740347017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangling complex data to its latent factors of variation is a
fundamental task in representation learning. Existing work on sequential
disentanglement mostly provides two factor representations, i.e., it separates
the data to time-varying and time-invariant factors. In contrast, we consider
multifactor disentanglement in which multiple (more than two) semantic
disentangled components are generated. Key to our approach is a strong
inductive bias where we assume that the underlying dynamics can be represented
linearly in the latent space. Under this assumption, it becomes natural to
exploit the recently introduced Koopman autoencoder models. However,
disentangled representations are not guaranteed in Koopman approaches, and thus
we propose a novel spectral loss term which leads to structured Koopman
matrices and disentanglement. Overall, we propose a simple and easy to code new
deep model that is fully unsupervised and it supports multifactor
disentanglement. We showcase new disentangling abilities such as swapping of
individual static factors between characters, and an incremental swap of
disentangled factors from the source to the target. Moreover, we evaluate our
method extensively on two factor standard benchmark tasks where we
significantly improve over competing unsupervised approaches, and we perform
competitively in comparison to weakly- and self-supervised state-of-the-art
approaches. The code is available at https://github.com/azencot-group/SKD.
- Abstract(参考訳): 複雑なデータを変化の潜在要因に遠ざけることは、表現学習の基本的な課題である。
逐次不整合に関する既存の研究は、主に2つの因子表現、すなわち、データを時間変化と時間不変の要素に分離する。
対照的に、複数の(複数の)意味的不整合成分が生成される多要素不整合を考える。
我々のアプローチの鍵は強い帰納的バイアスであり、基礎となるダイナミクスが潜在空間で線形に表現できると仮定する。
この仮定の下では、最近導入されたクープマンオートエンコーダモデルを利用するのが自然になる。
しかし、クープマンアプローチでは非絡み合い表現は保証されないため、構造的クープマン行列と非絡み合いをもたらす新しいスペクトル損失項を提案する。
全体としては、完全に教師なしで多要素の絡み合いをサポートする、シンプルで簡単な新しい深層モデルを提案する。
本稿では,文字間の個々の静的因子のスワップや,ソースからターゲットへのアンタングル要因のインクリメンタルスワップなど,新たなアンタングリング能力を示す。
さらに,提案手法は,比較対象の非教師付きアプローチよりも大幅に改善され,弱い教師付きおよび自己教師型手法と比較して競争的に性能が向上する,2因子標準のタスクに対して広範囲に評価する。
コードはhttps://github.com/azencot-group/skdで入手できる。
関連論文リスト
- Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は,最適化に基づく不整合アプローチと離散表現学習を組み合わせた最初の手法である。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - DOT-VAE: Disentangling One Factor at a Time [1.6114012813668934]
本稿では,変分オートエンコーダの潜伏空間を乱交空間で拡張し,Wake-Sleep-inspireed two-step algorithm for unsupervised disentanglementを用いて学習する手法を提案する。
我々のネットワークは、解釈可能な独立した因子を一度に1つのデータから切り離すことを学び、それを非絡み合った潜在空間の異なる次元にエンコードし、因子の数やそれらの共同分布について事前の仮定をしない。
論文 参考訳(メタデータ) (2022-10-19T22:53:02Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。