論文の概要: Unsupervised Disentanglement of Content and Style via Variance-Invariance Constraints
- arxiv url: http://arxiv.org/abs/2407.03824v3
- Date: Sat, 15 Mar 2025 13:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 21:01:23.650968
- Title: Unsupervised Disentanglement of Content and Style via Variance-Invariance Constraints
- Title(参考訳): 可変不変制約によるコンテンツとスタイルの教師なしアンタングル
- Authors: Yuxuan Wu, Ziyu Wang, Bhiksha Raj, Gus Xia,
- Abstract要約: 観察のシーケンスから歪んだ内容やスタイルの表現を効果的に学習する教師なしの方法。
このような帰納バイアスをエンコーダ・デコーダアーキテクチャに統合し、V3に因んでメソッドを命名する。
実験の結果,V3は複数の領域やモダリティにまたがる音色を呈し,絡み合ったコンテンツやスタイル表現の学習に成功した。
- 参考スコア(独自算出の注目度): 26.54652194425691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We contribute an unsupervised method that effectively learns disentangled content and style representations from sequences of observations. Unlike most disentanglement algorithms that rely on domain-specific labels or knowledge, our method is based on the insight of domain-general statistical differences between content and style -- content varies more among different fragments within a sample but maintains an invariant vocabulary across data samples, whereas style remains relatively invariant within a sample but exhibits more significant variation across different samples. We integrate such inductive bias into an encoder-decoder architecture and name our method after V3 (variance-versus-invariance). Experimental results show that V3 generalizes across multiple domains and modalities, successfully learning disentangled content and style representations, such as pitch and timbre from music audio, digit and color from images of hand-written digits, and action and character appearance from simple animations. V3 demonstrates strong disentanglement performance compared to existing unsupervised methods, along with superior out-of-distribution generalization under few-shot adaptation compared to supervised counterparts. Lastly, symbolic-level interpretability emerges in the learned content codebook, forging a near one-to-one alignment between machine representation and human knowledge.
- Abstract(参考訳): 本研究では, 教師なしの手法を用いて, アンタングル化コンテンツやスタイル表現を観測シーケンスから効果的に学習する手法を提案する。
ドメイン固有のラベルや知識に依存するほとんどの非絡み合いアルゴリズムとは異なり、我々の手法は、コンテンツとスタイルのドメイン一般統計的差異の洞察に基づいています -- コンテンツはサンプル内の異なる断片によってより異なりますが、データサンプル間で不変な語彙を維持していますが、スタイルはサンプル内で比較的不変ですが、異なるサンプル間でより顕著なばらつきを示します。
このような帰納バイアスをエンコーダ・デコーダアーキテクチャに統合し、V3(分散-逆不変性)に因んでメソッドを命名する。
実験の結果,V3は複数の領域やモダリティにまたがって一般化し,音楽音声からのピッチや音色,手書き桁の画像からの数字や色,単純なアニメーションからのアクションやキャラクターの出現など,絡み合った内容やスタイルの表現をうまく学習できることがわかった。
V3は、既存の教師なし手法と比較して強い拘束性能を示し、教師付き手法と比較して、数ショット適応による分配外分布の一般化が優れている。
最後に、学習したコンテンツコードブックにシンボリックレベルの解釈可能性が現れ、マシン表現と人間の知識のほぼ1対1のアライメントが形成される。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。
具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。
提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-02T07:35:21Z) - Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、弱い教師付きピクセル対ポイントのコントラスト蒸留のためのセマンティックラベルを生成するために使用される。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
我々の手法は、下流タスクにおける既存の画像からLiDARへのコントラスト蒸留法を一貫して超越している。
論文 参考訳(メタデータ) (2024-05-23T07:48:19Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Robust Novelty Detection through Style-Conscious Feature Ranking [7.691679448855549]
我々は、タスク関連セマンティクスまたはコンテンツ変更と無関係なスタイル変更の正式な区別を提唱する。
この区別は堅牢な新規性検出の基礎を形成し、スタイルの分布シフトに耐性のある意味変化の同定を強調している。
本稿では,事前学習した大規模モデル表現を用いて環境バイアスのある特徴を選択的に破棄する手法であるStylistを紹介する。
論文 参考訳(メタデータ) (2023-10-05T17:58:32Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Variational Self-Supervised Contrastive Learning Using Beta Divergence [0.0]
本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。
顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-05T17:21:38Z) - Self-supervised learning of Split Invariant Equivariant representations [0.0]
55以上の3Dモデルと250万以上の画像からなる3DIEBenchを導入し、オブジェクトに適用される変換を完全に制御する。
我々はハイパーネットワークに基づく予測アーキテクチャを導入し、不変表現を非分散に分解することなく学習する。
SIE(Split Invariant-Equivariant)を導入し、よりリッチな表現を学ぶために、ハイパーネットワークベースの予測器と表現を2つの部分に分割する。
論文 参考訳(メタデータ) (2023-02-14T07:53:18Z) - Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Rethinking Content and Style: Exploring Bias for Unsupervised
Disentanglement [59.033559925639075]
本研究では,異なる要因が画像再構成において重要度や人気度が異なるという仮定に基づいて,教師なしc-s異節の定式化を提案する。
モデルインダクティブバイアスは,提案したC-Sアンタングルメントモジュール(C-S DisMo)によって導入された。
いくつかの一般的なデータセットに対する実験により、我々の手法が最先端の教師なしC-Sアンタングルメントを実現することを示す。
論文 参考訳(メタデータ) (2021-02-21T08:04:33Z) - Towards Domain-Agnostic Contrastive Learning [103.40783553846751]
そこで本研究では,DACLという対照的学習に対するドメインに依存しない新しいアプローチを提案する。
このアプローチの鍵となるのは、Mixupノイズを使用して、入力レベルと隠された状態レベルの両方で異なるデータサンプルを混合することで、類似した、異種なサンプルを作成することです。
以上の結果から,DACLはガウスノイズなどの他のドメインに依存しないノイズ発生手法よりも優れるだけでなく,SimCLRのようなドメイン固有の手法とうまく結合していることがわかった。
論文 参考訳(メタデータ) (2020-11-09T13:41:56Z) - Unsupervised Representation Learning by InvariancePropagation [34.53866045440319]
本稿では,カテゴリーレベルの変分に不変な学習表現に焦点をあてる不変分散伝播を提案する。
バックボーンとしてResNet-50を用いると、ImageNetの線形分類では71.3%の精度で、1%のラベルだけで78.2%の精度で微調整できる。
また、Places205とPascal VOCの線形分類や、小規模データセットでの転送学習など、他の下流タスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2020-10-07T13:00:33Z) - What Should Not Be Contrastive in Contrastive Learning [110.14159883496859]
本稿では,タスク依存不変性に関する事前知識を必要としない,対照的な学習フレームワークを提案する。
我々のモデルは、異なる埋め込み空間を構築することで、視覚表現の様々な要因や不変要素を捉えることを学習する。
我々は、共有バックボーンを持つマルチヘッドネットワークを使用し、各オーグメンテーションにまたがる情報をキャプチャし、ダウンストリームタスクにおけるすべてのベースラインより優れている。
論文 参考訳(メタデータ) (2020-08-13T03:02:32Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。