論文の概要: Local Mechanisms of Compositional Generalization in Conditional Diffusion
- arxiv url: http://arxiv.org/abs/2509.16447v2
- Date: Thu, 25 Sep 2025 07:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.900807
- Title: Local Mechanisms of Compositional Generalization in Conditional Diffusion
- Title(参考訳): 条件拡散における組成一般化の局所メカニズム
- Authors: Arwen Bradley,
- Abstract要約: 我々は、トレーニング中に見るよりも多くの物体で画像を生成することができる長さ一般化について研究する。
制御されたCLEVR設定では、長さの一般化はいくつかのケースでは達成できるが、他のケースでは達成できない。
次に,構成一般化のための構造機構としての局所性について検討する。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional diffusion models appear capable of compositional generalization, i.e., generating convincing samples for out-of-distribution combinations of conditioners, but the mechanisms underlying this ability remain unclear. To make this concrete, we study length generalization, the ability to generate images with more objects than seen during training. In a controlled CLEVR setting (Johnson et al., 2017), we find that length generalization is achievable in some cases but not others, suggesting that models only sometimes learn the underlying compositional structure. We then investigate locality as a structural mechanism for compositional generalization. Prior works proposed score locality as a mechanism for creativity in unconditional diffusion models (Kamb & Ganguli, 2024; Niedoba et al., 2024), but did not address flexible conditioning or compositional generalization. In this paper, we prove an exact equivalence between a specific compositional structure ("conditional projective composition") (Bradley et al., 2025) and scores with sparse dependencies on both pixels and conditioners ("local conditional scores"). This theory also extends to feature-space compositionality. We validate our theory empirically: CLEVR models that succeed at length generalization exhibit local conditional scores, while those that fail do not. Furthermore, we show that a causal intervention explicitly enforcing local conditional scores restores length generalization in a previously failing model. Finally, we investigate feature-space compositionality in color-conditioned CLEVR, and find preliminary evidence of compositional structure in SDXL.
- Abstract(参考訳): 条件拡散モデルは、組成一般化、すなわち、コンディショナーのアウト・オブ・ディストリビューションの組み合わせのための説得力のあるサンプルを生成することができるように見えるが、この能力の基盤となるメカニズムはいまだ不明である。
これを具体化するために、トレーニング中に見るよりも多くの物体で画像を生成することができる長さ一般化について研究する。
制御された CLEVR 設定 (Johnson et al , 2017) において、長さの一般化はいくつかのケースでは達成可能であるが、他のケースでは達成できないことを発見し、モデルが基礎となる構成構造を学習することしかできないことを示唆している。
次に,構成一般化のための構造機構としての局所性について検討する。
先行研究は、非条件拡散モデル(Kamb & Ganguli, 2024; Niedoba et al , 2024)における創造性のメカニズムとして局所性を評価することを提案したが、柔軟な条件付けや構成一般化には対処しなかった。
本稿では,特定の構成構造(条件射影合成)と,画素とコンディショナー(局所条件スコア)の両方に疎依存したスコア(Bradley et al , 2025)の正確な等価性を証明した。
この理論はまた、特徴空間の構成性にまで拡張する。
長さの一般化に成功したCLEVRモデルは、局所的な条件スコアを示すが、失敗しない。
さらに,局所条件スコアを明示的に強制する因果的介入が,以前に失敗したモデルにおける長さ一般化を復元することを示す。
最後に,カラーコンディショニングCLEVRの特徴空間構成性について検討し,SDXLにおける構成構造の予備的証拠を見出した。
関連論文リスト
- How Compositional Generalization and Creativity Improve as Diffusion Models are Trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Mechanisms of Projective Composition of Diffusion Models [18.766875024265993]
拡散モデルにおける構成の理論的基礎について考察する。
作文が「仕事」を意味するかは明らかになっていない。
本稿では,新作曲の成功や失敗を予測するための簡易な外挿法を提案する。
論文 参考訳(メタデータ) (2025-02-06T22:59:54Z) - When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定された構成的表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
本研究は, 学習データの統計的構造が構成一般化にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - The role of (non)contextuality in Bell's theorems from the perspective
of an operational modeling framework [0.0]
非コンテキスト性はQM予測の複製をブロックする操作モデルの最も一般的な性質である。
ODモデルインスタンスの有限アンサンブルの凸殻の構成は(数学的に)従来の隠れ変数のアプローチと同値であることが示されている。
論文 参考訳(メタデータ) (2020-01-23T20:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。