論文の概要: Interaction Asymmetry: A General Principle for Learning Composable Abstractions
- arxiv url: http://arxiv.org/abs/2411.07784v1
- Date: Tue, 12 Nov 2024 13:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:07.236271
- Title: Interaction Asymmetry: A General Principle for Learning Composable Abstractions
- Title(参考訳): 相互作用非対称性:構成可能な抽象化を学習するための一般的な原則
- Authors: Jack Brady, Julius von Kügelgen, Sébastien Lachapelle, Simon Buchholz, Thomas Kipf, Wieland Brendel,
- Abstract要約: 相互作用非対称性は、アンタングル化と合成一般化の両方を可能にすることを示す。
本稿では, フレキシブルトランスフォーマーをベースとしたVAEを用いて, デコーダの注意重みに対する新しい正規化器を提案する。
- 参考スコア(独自算出の注目度): 27.749478197803256
- License:
- Abstract: Learning disentangled representations of concepts and re-composing them in unseen ways is crucial for generalizing to out-of-domain situations. However, the underlying properties of concepts that enable such disentanglement and compositional generalization remain poorly understood. In this work, we propose the principle of interaction asymmetry which states: "Parts of the same concept have more complex interactions than parts of different concepts". We formalize this via block diagonality conditions on the $(n+1)$th order derivatives of the generator mapping concepts to observed data, where different orders of "complexity" correspond to different $n$. Using this formalism, we prove that interaction asymmetry enables both disentanglement and compositional generalization. Our results unify recent theoretical results for learning concepts of objects, which we show are recovered as special cases with $n\!=\!0$ or $1$. We provide results for up to $n\!=\!2$, thus extending these prior works to more flexible generator functions, and conjecture that the same proof strategies generalize to larger $n$. Practically, our theory suggests that, to disentangle concepts, an autoencoder should penalize its latent capacity and the interactions between concepts during decoding. We propose an implementation of these criteria using a flexible Transformer-based VAE, with a novel regularizer on the attention weights of the decoder. On synthetic image datasets consisting of objects, we provide evidence that this model can achieve comparable object disentanglement to existing models that use more explicit object-centric priors.
- Abstract(参考訳): 概念の不整合表現を学習し、それらを目に見えない方法で再コンパイルすることは、領域外状況への一般化に不可欠である。
しかし、そのような非絡み合いや構成的一般化を可能にする概念の根底にある性質は、いまだに理解されていない。
本研究では、「同じ概念の一部が異なる概念の一部よりも複雑な相互作用を持つ」という相互作用非対称性の原理を提案する。
我々はこれを、生成元の概念を観測データにマッピングする$(n+1)$2次微分のブロック対角性条件によって定式化し、そこでは「複素性」の異なる順序が異なる$n$に対応する。
この形式主義を用いることで、相互作用非対称性は非絡み合いと構成的一般化の両方を可能にすることが証明される。
この結果は,対象概念の学習における最近の理論的結果を統合するもので,この結果が特殊ケースとして,$n\!
=\!
0ドルまたは1ドル。
最大$n\!
=\!
したがって、これらの前の作業はより柔軟な生成関数に拡張され、同じ証明戦略がより大きい$n$に一般化される。
我々の理論は、概念を歪めるためには、オートエンコーダはその潜在能力とデコード中の概念間の相互作用をペナルティ化するべきであることを示唆している。
本稿では, フレキシブルトランスフォーマーをベースとしたVAEを用いて, デコーダの注意重みに対する新しい正規化器を提案する。
対象物からなる合成画像データセットにおいて、より明示的な対象中心の先行値を使用する既存のモデルに対して、このモデルがオブジェクトの絡み合わせを達成できることを示す。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Tempered Calculus for ML: Application to Hyperbolic Model Embedding [70.61101116794549]
MLで使用されるほとんどの数学的歪みは、本質的に自然界において積分的である。
本稿では,これらの歪みを改善するための基礎的理論とツールを公表し,機械学習の要件に対処する。
我々は、最近MLで注目を集めた問題、すなわち、ハイパーボリック埋め込みを「チープ」で正確なエンコーディングで適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-06T17:21:06Z) - Object-centric architectures enable efficient causal representation
learning [51.6196391784561]
観測対象が複数の物体である場合, 生成関数はもはや注入的ではなく, 実際に乱れは生じないことを示す。
スパース摂動からの弱い監督を利用して各オブジェクトのプロパティを乱すオブジェクト中心アーキテクチャを開発する。
このアプローチはユークリッド空間にエンコードする同等のアプローチよりもはるかに少ない摂動を必要とするという意味で、よりデータ効率が高い。
論文 参考訳(メタデータ) (2023-10-29T16:01:03Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Refining and relating fundamentals of functional theory [0.0]
ここでは、なぜ6つの同値な普遍汎函数が存在するのかを説明し、それらの間の簡潔な関係を証明し、$v$-representability の重要な概念は変数のスコープと選択に相対的であると結論付ける。
時間反転対称性を持つ系に対して、なぜ6つの同値な普遍汎函数が存在するのかを説明し、それらの間の簡潔な関係を証明し、$v$-表現可能性の重要な概念は変数のスコープと選択に相対的であると結論付ける。
論文 参考訳(メタデータ) (2023-01-24T18:09:47Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - On the Complexity of Bayesian Generalization [141.21610899086392]
我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。
問題空間が大きくなると、2つのモードが研究され、$complexity$が多様になる。
論文 参考訳(メタデータ) (2022-11-20T17:21:37Z) - Foundation of one-particle reduced density matrix functional theory for
excited states [0.0]
相互作用する多重フェルミオン系の選択された固有状態のエネルギーを計算するために、還元密度行列汎関数理論(RDMFT)が提案されている。
ここでは、いわゆる $boldsymbolw$-RDMFT の固い基盤を構築し、様々な導出の詳細を示す。
論文 参考訳(メタデータ) (2021-06-07T19:03:32Z) - Making Coherence Out of Nothing At All: Measuring the Evolution of
Gradient Alignment [15.2292571922932]
本研究では,トレーニング中のサンプルごとの勾配のアライメントを実験的に研究するための新しい指標(m$-coherence)を提案する。
我々は、$m$-coherenceがより解釈可能で、$O(m2)$ではなく$O(m)$で計算し、数学的にクリーンであることを示します。
論文 参考訳(メタデータ) (2020-08-03T21:51:24Z) - Beyond $\mathcal{H}$-Divergence: Domain Adaptation Theory With
Jensen-Shannon Divergence [21.295136514836788]
広範に評価された経験的ドメイン逆行訓練と,$mathcalH$-divergenceに基づく理論上の相似性を明らかにする。
我々は,Jensen-Shannon分散に基づく上層および下層ターゲットのリスク境界を直接証明することによって,新たな理論的枠組みを確立する。
論文 参考訳(メタデータ) (2020-07-30T16:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。