論文の概要: Unsupervised Disentanglement of Content and Style via Variance-Invariance Constraints
- arxiv url: http://arxiv.org/abs/2407.03824v2
- Date: Mon, 03 Mar 2025 17:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:11:16.878577
- Title: Unsupervised Disentanglement of Content and Style via Variance-Invariance Constraints
- Title(参考訳): 可変不変制約によるコンテンツとスタイルの教師なしアンタングル
- Authors: Yuxuan Wu, Ziyu Wang, Bhiksha Raj, Gus Xia,
- Abstract要約: 観察のシーケンスから歪んだ内容やスタイルの表現を効果的に学習する教師なしの方法。
このような帰納バイアスをエンコーダ・デコーダアーキテクチャに統合し、V3に因んでメソッドを命名する。
実験の結果,V3は複数の領域やモダリティにまたがる音色を呈し,絡み合ったコンテンツやスタイル表現の学習に成功した。
- 参考スコア(独自算出の注目度): 26.54652194425691
- License:
- Abstract: We contribute an unsupervised method that effectively learns disentangled content and style representations from sequences of observations. Unlike most disentanglement algorithms that rely on domain-specific labels or knowledge, our method is based on the insight of domain-general statistical differences between content and style -- content varies more among different fragments within a sample but maintains an invariant vocabulary across data samples, whereas style remains relatively invariant within a sample but exhibits more significant variation across different samples. We integrate such inductive bias into an encoder-decoder architecture and name our method after V3 (variance-versus-invariance). Experimental results show that V3 generalizes across multiple domains and modalities, successfully learning disentangled content and style representations, such as pitch and timbre from music audio, digit and color from images of hand-written digits, and action and character appearance from simple animations. V3 demonstrates strong disentanglement performance compared to existing unsupervised methods, along with superior out-of-distribution generalization under few-shot adaptation compared to supervised counterparts. Lastly, symbolic-level interpretability emerges in the learned content codebook, forging a near one-to-one alignment between machine representation and human knowledge.
- Abstract(参考訳): 本研究では, 教師なしの手法を用いて, アンタングル化コンテンツやスタイル表現を観測シーケンスから効果的に学習する手法を提案する。
ドメイン固有のラベルや知識に依存するほとんどの非絡み合いアルゴリズムとは異なり、我々の手法は、コンテンツとスタイルのドメイン一般統計的差異の洞察に基づいています -- コンテンツはサンプル内の異なる断片によってより異なりますが、データサンプル間で不変な語彙を維持していますが、スタイルはサンプル内で比較的不変ですが、異なるサンプル間でより顕著なばらつきを示します。
このような帰納バイアスをエンコーダ・デコーダアーキテクチャに統合し、V3(分散-逆不変性)に因んでメソッドを命名する。
実験の結果,V3は複数の領域やモダリティにまたがって一般化し,音楽音声からのピッチや音色,手書き桁の画像からの数字や色,単純なアニメーションからのアクションやキャラクターの出現など,絡み合った内容やスタイルの表現をうまく学習できることがわかった。
V3は、既存の教師なし手法と比較して強い拘束性能を示し、教師付き手法と比較して、数ショット適応による分配外分布の一般化が優れている。
最後に、学習したコンテンツコードブックにシンボリックレベルの解釈可能性が現れ、マシン表現と人間の知識のほぼ1対1のアライメントが形成される。
関連論文リスト
- Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Variational Self-Supervised Contrastive Learning Using Beta Divergence [0.0]
本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。
顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-05T17:21:38Z) - Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Towards Domain-Agnostic Contrastive Learning [103.40783553846751]
そこで本研究では,DACLという対照的学習に対するドメインに依存しない新しいアプローチを提案する。
このアプローチの鍵となるのは、Mixupノイズを使用して、入力レベルと隠された状態レベルの両方で異なるデータサンプルを混合することで、類似した、異種なサンプルを作成することです。
以上の結果から,DACLはガウスノイズなどの他のドメインに依存しないノイズ発生手法よりも優れるだけでなく,SimCLRのようなドメイン固有の手法とうまく結合していることがわかった。
論文 参考訳(メタデータ) (2020-11-09T13:41:56Z) - Unsupervised Representation Learning by InvariancePropagation [34.53866045440319]
本稿では,カテゴリーレベルの変分に不変な学習表現に焦点をあてる不変分散伝播を提案する。
バックボーンとしてResNet-50を用いると、ImageNetの線形分類では71.3%の精度で、1%のラベルだけで78.2%の精度で微調整できる。
また、Places205とPascal VOCの線形分類や、小規模データセットでの転送学習など、他の下流タスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2020-10-07T13:00:33Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。