論文の概要: Disentangled Representation Learning via Modular Compositional Bias
- arxiv url: http://arxiv.org/abs/2510.21402v1
- Date: Fri, 24 Oct 2025 12:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.46791
- Title: Disentangled Representation Learning via Modular Compositional Bias
- Title(参考訳): モジュラー構成バイアスによる異方性表現学習
- Authors: Whie Jung, Dong Hoon Lee, Seunghoon Hong,
- Abstract要約: 目的とアーキテクチャの両方から分離されたモジュラー帰納バイアスである構成バイアスを提案する。
我々の重要な洞察は、異なる要因がデータ分散において異なる組換え規則に従うことである。
提案手法は属性とオブジェクトの絡み合いの両面での競合性能を示し,グローバルなスタイルとオブジェクトの絡み合いを一意に達成する。
- 参考スコア(独自算出の注目度): 19.244228209387163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent disentangled representation learning (DRL) methods heavily rely on factor specific strategies-either learning objectives for attributes or model architectures for objects-to embed inductive biases. Such divergent approaches result in significant overhead when novel factors of variation do not align with prior assumptions, such as statistical independence or spatial exclusivity, or when multiple factors coexist, as practitioners must redesign architectures or objectives. To address this, we propose a compositional bias, a modular inductive bias decoupled from both objectives and architectures. Our key insight is that different factors obey distinct recombination rules in the data distribution: global attributes are mutually exclusive, e.g., a face has one nose, while objects share a common support (any subset of objects can co-exist). We therefore randomly remix latents according to factor-specific rules, i.e., a mixing strategy, and force the encoder to discover whichever factor structure the mixing strategy reflects through two complementary objectives: (i) a prior loss that ensures every remix decodes into a realistic image, and (ii) the compositional consistency loss introduced by Wiedemer et al. (arXiv:2310.05327), which aligns each composite image with its corresponding composite latent. Under this general framework, simply adjusting the mixing strategy enables disentanglement of attributes, objects, and even both, without modifying the objectives or architectures. Extensive experiments demonstrate that our method shows competitive performance in both attribute and object disentanglement, and uniquely achieves joint disentanglement of global style and objects. Code is available at https://github.com/whieya/Compositional-DRL.
- Abstract(参考訳): 最近の不整合表現学習(DRL)手法は、属性の学習目標やオブジェクトのモデルアーキテクチャ、帰納的バイアスの埋め込みなど、要因固有の戦略に大きく依存している。
このようなばらつきのアプローチは、統計的独立性や空間的排他性といった従来の仮定と一致しない場合や、実践者がアーキテクチャや目的を再設計する必要があるため、複数の要因が共存している場合など、大きなオーバーヘッドをもたらす。
これを解決するために、目的とアーキテクチャの両方から分離されたモジュラー帰納バイアスである構成バイアスを提案する。
グローバル属性は相互排他的であり、例えば、顔には1つの鼻があり、オブジェクトは共通のサポートを共有しています(オブジェクトのサブセットは共存可能です)。
したがって、我々は、因子特異的な規則、すなわち混合戦略に従ってラテントをランダムにリミックスし、エンコーダに、混合戦略が2つの相補的な目的を通して反映する因子構造を発見させる。
(i)すべてのリミックス復号がリアルな画像に変換されることを保証する事前の損失
(II) Wiedemer et al (arXiv:2310.05327) が導入した組成整合性損失は, 合成画像と対応する合成潜水剤との整合性を示す。
この一般的なフレームワークの下では、単にミキシング戦略を調整するだけで、目的やアーキテクチャを変更することなく、属性、オブジェクト、そして両方を歪めることができる。
広汎な実験により,本手法は属性とオブジェクトの絡み合いの両面での競合性能を示し,グローバルなスタイルとオブジェクトの絡み合いを一意に達成することを示した。
コードはhttps://github.com/whieya/compositional-DRLで公開されている。
関連論文リスト
- Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - The Coverage Principle: A Framework for Understanding Compositional Generalization [31.762330857169914]
合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。
我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文 参考訳(メタデータ) (2025-05-26T17:55:15Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Rethinking Content and Style: Exploring Bias for Unsupervised
Disentanglement [59.033559925639075]
本研究では,異なる要因が画像再構成において重要度や人気度が異なるという仮定に基づいて,教師なしc-s異節の定式化を提案する。
モデルインダクティブバイアスは,提案したC-Sアンタングルメントモジュール(C-S DisMo)によって導入された。
いくつかの一般的なデータセットに対する実験により、我々の手法が最先端の教師なしC-Sアンタングルメントを実現することを示す。
論文 参考訳(メタデータ) (2021-02-21T08:04:33Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。