論文の概要: When does compositional structure yield compositional generalization? A kernel theory
- arxiv url: http://arxiv.org/abs/2405.16391v1
- Date: Sun, 26 May 2024 00:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:37:49.501515
- Title: When does compositional structure yield compositional generalization? A kernel theory
- Title(参考訳): 構成構造はいつ構成一般化をもたらすのか? カーネル理論
- Authors: Samuel Lippl, Kim Stachenfeld,
- Abstract要約: 固定された潜在的非線形表現を持つカーネルモデルにおける合成一般化の理論を示す。
これらのモデルは、トレーニング中に見られたコンポーネントの結合/結合に割り当てられた値を追加するために機能的に制限されていることを示す。
我々は,この理論を実証的に検証し,一連の構成課題に基づいて訓練された深層ニューラルネットワークの挙動を捉えることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization (the ability to respond correctly to novel combinations of familiar components) is thought to be a cornerstone of intelligent behavior. Compositionally structured (e.g. disentangled) representations are essential for this; however, the conditions under which they yield compositional generalization remain unclear. To address this gap, we present a general theory of compositional generalization in kernel models with fixed, potentially nonlinear representations (which also applies to neural networks in the "lazy regime"). We prove that these models are functionally limited to adding up values assigned to conjunctions/combinations of components that have been seen during training ("conjunction-wise additivity"), and identify novel compositionality failure modes that arise from the data and model structure, even for disentangled inputs. For models in the representation learning (or "rich") regime, we show that networks can generalize on an important non-additive task (associative inference), and give a mechanistic explanation for why. Finally, we validate our theory empirically, showing that it captures the behavior of deep neural networks trained on a set of compositional tasks. In sum, our theory characterizes the principles giving rise to compositional generalization in kernel models and shows how representation learning can overcome their limitations. We further provide a formally grounded, novel generalization class for compositional tasks that highlights fundamental differences in the required learning mechanisms (conjunction-wise additivity).
- Abstract(参考訳): 構成一般化(慣れ親しんだコンポーネントの新たな組み合わせに正しく反応する能力)は知的行動の基礎であると考えられている。
構成的構造化された(e g disentangled)表現は、これに必須であるが、それらが構成的一般化をもたらす条件はいまだ不明である。
このギャップに対処するために、固定された潜在的非線形表現を持つカーネルモデルにおける合成一般化の一般的な理論(これは「怠けな状態」のニューラルネットワークにも適用される)を示す。
これらのモデルは、トレーニング中に見られたコンポーネントの結合/結合に割り当てられた値(接続ワイド加算)に機能的に制限されることを証明し、不整合入力であってもデータやモデル構造から生じる新しい構成的故障モードを同定する。
表現学習(あるいはリッチ)体制のモデルの場合、ネットワークは重要な非付加的タスク(連想的推論)を一般化し、その理由を機械論的に説明できることを示す。
最後に、我々の理論を実証的に検証し、一連の構成タスクで訓練されたディープニューラルネットワークの振る舞いを捉えていることを示す。
総じて、我々の理論は、カーネルモデルにおける構成一般化をもたらす原理を特徴づけ、表現学習がそれらの限界を克服する方法を示している。
さらに,必要な学習メカニズム(接続的付加性)の基本的な相違点を強調した,作曲タスクのための基礎的,新しい一般化クラスを提供する。
関連論文リスト
- What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - Provable Compositional Generalization for Object-Centric Learning [55.658215686626484]
既知の概念の新規な構成に一般化する学習表現は、人間と機械の知覚のギャップを埋めるのに不可欠である。
本稿では,デコーダの構造的仮定を満足し,エンコーダとデコーダの整合性を強制するオートエンコーダが,構成を確実に一般化するオブジェクト中心表現を学習することを示す。
論文 参考訳(メタデータ) (2023-10-09T01:18:07Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Improving Compositional Generalization in Classification Tasks via
Structure Annotations [33.90268697120572]
人間は構成を一般化する能力は大きいが、最先端のニューラルモデルはそれを行うのに苦労している。
まず、自然言語のシーケンス・ツー・シーケンス・データセットを、合成の一般化も必要とする分類データセットに変換する方法について検討する。
第二に、構造的ヒントを提供すること(特にトランスフォーマーモデルの注意マスクとしてパースツリーとエンティティリンクを提供すること)は、構成の一般化に役立つことを示す。
論文 参考訳(メタデータ) (2021-06-19T06:07:27Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z) - Does syntax need to grow on trees? Sources of hierarchical inductive
bias in sequence-to-sequence networks [28.129220683169052]
ニューラルネットワークモデルでは、帰納バイアスは理論上モデルアーキテクチャのあらゆる側面から生じる可能性がある。
2つの構文的タスクで訓練されたニューラルシークエンス・ツー・シーケンスモデルの一般化挙動にどのようなアーキテクチャ的要因が影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2020-01-10T19:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。