論文の概要: Emergent Interpretable Symbols and Content-Style Disentanglement via Variance-Invariance Constraints
- arxiv url: http://arxiv.org/abs/2407.03824v1
- Date: Thu, 4 Jul 2024 10:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:32:28.287040
- Title: Emergent Interpretable Symbols and Content-Style Disentanglement via Variance-Invariance Constraints
- Title(参考訳): 可変不変制約による創発的解釈可能なシンボルとコンテンツスタイルの絡み合い
- Authors: Yuxuan Wu, Ziyu Wang, Bhiksha Raj, Gus Xia,
- Abstract要約: 生の観察から効果的に学習し、潜在空間を内容とスタイル表現に分解する教師なしの方法。
本手法は,コンテンツとスタイルのドメイン一般統計的差異の洞察に基づく。
実験結果から、V3は2つの異なる領域を異なるモジュラリティで一般化することが示された。
- 参考スコア(独自算出の注目度): 26.54652194425691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We contribute an unsupervised method that effectively learns from raw observation and disentangles its latent space into content and style representations. Unlike most disentanglement algorithms that rely on domain-specific labels and knowledge, our method is based on the insight of domain-general statistical differences between content and style -- content varies more among different fragments within a sample but maintains an invariant vocabulary across data samples, whereas style remains relatively invariant within a sample but exhibits more significant variation across different samples. We integrate such inductive bias into an encoder-decoder architecture and name our method after V3 (variance-versus-invariance). Experimental results show that V3 generalizes across two distinct domains in different modalities, music audio and images of written digits, successfully learning pitch-timbre and digit-color disentanglements, respectively. Also, the disentanglement robustness significantly outperforms baseline unsupervised methods and is even comparable to supervised counterparts. Furthermore, symbolic-level interpretability emerges in the learned codebook of content, forging a near one-to-one alignment between machine representation and human knowledge.
- Abstract(参考訳): 本研究では、生の観察から効果的に学習し、その潜在空間をコンテンツやスタイル表現に分解する教師なしの手法を提案する。
ドメイン固有のラベルや知識に依存するほとんどの非絡み合いアルゴリズムとは異なり、我々の手法は、コンテンツとスタイルのドメイン一般統計的差異の洞察に基づいています -- コンテンツはサンプル内の異なるフラグメントの間でより異なりますが、データサンプル間で不変な語彙を維持していますが、スタイルはサンプル内で比較的不変ですが、異なるサンプル間でより顕著なばらつきを示します。
このような帰納バイアスをエンコーダ・デコーダアーキテクチャに統合し、V3(分散-逆不変性)に因んでメソッドを命名する。
実験結果から,V3は異なる音節の異なる2つの領域,音楽の音声と文字の文字のイメージを一般化し,ピッチ音色とディジロジアンタングルメントの学習に成功していることがわかった。
また、乱れの堅牢性はベースラインの非教師付きメソッドよりも著しく優れており、教師付きメソッドに匹敵する。
さらに、学習した内容のコードブックに記号レベルの解釈可能性が現れ、機械表現と人間の知識のほぼ1対1の一致を形作る。
関連論文リスト
- Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Variational Self-Supervised Contrastive Learning Using Beta Divergence [0.0]
本稿では,データノイズに対して頑健な自己教師付き学習手法を提案する。
顔理解領域における多ラベルデータセットを用いた線形評価と微調整シナリオを含む厳密な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-05T17:21:38Z) - Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Towards Domain-Agnostic Contrastive Learning [103.40783553846751]
そこで本研究では,DACLという対照的学習に対するドメインに依存しない新しいアプローチを提案する。
このアプローチの鍵となるのは、Mixupノイズを使用して、入力レベルと隠された状態レベルの両方で異なるデータサンプルを混合することで、類似した、異種なサンプルを作成することです。
以上の結果から,DACLはガウスノイズなどの他のドメインに依存しないノイズ発生手法よりも優れるだけでなく,SimCLRのようなドメイン固有の手法とうまく結合していることがわかった。
論文 参考訳(メタデータ) (2020-11-09T13:41:56Z) - Unsupervised Representation Learning by InvariancePropagation [34.53866045440319]
本稿では,カテゴリーレベルの変分に不変な学習表現に焦点をあてる不変分散伝播を提案する。
バックボーンとしてResNet-50を用いると、ImageNetの線形分類では71.3%の精度で、1%のラベルだけで78.2%の精度で微調整できる。
また、Places205とPascal VOCの線形分類や、小規模データセットでの転送学習など、他の下流タスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2020-10-07T13:00:33Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。