論文の概要: When does compositional structure yield compositional generalization? A kernel theory
- arxiv url: http://arxiv.org/abs/2405.16391v2
- Date: Mon, 07 Oct 2024 22:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:25:42.484501
- Title: When does compositional structure yield compositional generalization? A kernel theory
- Title(参考訳): 構成構造はいつ構成一般化をもたらすのか? カーネル理論
- Authors: Samuel Lippl, Kim Stachenfeld,
- Abstract要約: 固定表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
この研究は、トレーニングデータの統計的構造が構成一般化にどのように影響するかに関する理論的視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Compositional generalization (the ability to respond correctly to novel combinations of familiar components) is thought to be a cornerstone of intelligent behavior. Compositionally structured (e.g. disentangled) representations are essential for this; however, the conditions under which they yield compositional generalization remain unclear. To address this gap, we present a general theory of compositional generalization in kernel models with fixed representations, a tractable framework for characterizing the impact of dataset statistics on generalization. We find that kernel models are constrained to adding up values assigned to each combination of components seen during training ("conjunction-wise additivity"). This imposes fundamental restrictions on the set of tasks these models can learn, in particular preventing them from transitively generalizing equivalence relations. Even for compositional tasks that kernel models can in principle learn, we identify novel failure modes in compositional generalization that arise from biases in the training data and affect important compositional building blocks such as symbolic addition and context dependence (memorization leak and shortcut bias). Finally, we empirically validate our theory, showing that it captures the behavior of deep neural networks (convolutional networks, residual networks, and Vision Transformers) trained on a set of compositional tasks with similarly structured data. Ultimately, this work provides a theoretical perspective on how statistical structure in the training data can affect compositional generalization, with implications for how to identify and remedy failure modes in deep learning models.
- Abstract(参考訳): 構成一般化(慣れ親しんだコンポーネントの新たな組み合わせに正しく反応する能力)は知的行動の基礎であると考えられている。
構成的構造化された(e g disentangled)表現は、これに必須であるが、それらが構成的一般化をもたらす条件はいまだ不明である。
このギャップに対処するために、固定表現を持つカーネルモデルにおける合成一般化の一般的な理論、つまり、データセット統計が一般化に与える影響を特徴付けるための抽出可能なフレームワークを提案する。
カーネルモデルは、トレーニング中に見られる各コンポーネントの組み合わせに割り当てられた値("conjunction-wise additivity")に制限されている。
これはこれらのモデルが学習できる一連のタスクに根本的な制限を課し、特に同値関係が過渡的に一般化されるのを防ぐ。
カーネルモデルが原則的に学習できる構成的タスクであっても、トレーニングデータのバイアスから生じる構成的一般化における新しい障害モードを特定し、シンボリック加算やコンテキスト依存(記憶漏洩やショートカットバイアス)といった重要な構成的構成要素に影響を与える。
最後に, ニューラルネットワーク(畳み込みネットワーク, 残差ネットワーク, ビジョントランスフォーマー)の動作を, 同様に構造化されたデータを用いた一連の構成的タスクで捉えることを実証し, 理論を実証的に検証した。
最終的に、この研究は、学習データにおける統計的構造が構成的一般化にどのように影響するかの理論的な視点を提供し、ディープラーニングモデルにおける障害モードの特定と修復方法に意味を持つ。
関連論文リスト
- What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - Provable Compositional Generalization for Object-Centric Learning [57.42720932595342]
既知の概念の新規な構成に一般化する学習表現は、人間と機械の知覚のギャップを埋めるのに不可欠である。
本稿では,デコーダの構造的仮定を満足し,エンコーダとデコーダの整合性を強制するオートエンコーダが,構成を確実に一般化するオブジェクト中心表現を学習することを示す。
論文 参考訳(メタデータ) (2023-10-09T01:18:07Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Improving Compositional Generalization in Classification Tasks via
Structure Annotations [33.90268697120572]
人間は構成を一般化する能力は大きいが、最先端のニューラルモデルはそれを行うのに苦労している。
まず、自然言語のシーケンス・ツー・シーケンス・データセットを、合成の一般化も必要とする分類データセットに変換する方法について検討する。
第二に、構造的ヒントを提供すること(特にトランスフォーマーモデルの注意マスクとしてパースツリーとエンティティリンクを提供すること)は、構成の一般化に役立つことを示す。
論文 参考訳(メタデータ) (2021-06-19T06:07:27Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z) - Does syntax need to grow on trees? Sources of hierarchical inductive
bias in sequence-to-sequence networks [28.129220683169052]
ニューラルネットワークモデルでは、帰納バイアスは理論上モデルアーキテクチャのあらゆる側面から生じる可能性がある。
2つの構文的タスクで訓練されたニューラルシークエンス・ツー・シーケンスモデルの一般化挙動にどのようなアーキテクチャ的要因が影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2020-01-10T19:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。