論文の概要: A mathematical theory of balancing relational generalization and memorization
- arxiv url: http://arxiv.org/abs/2605.22972v1
- Date: Thu, 21 May 2026 19:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.066754
- Title: A mathematical theory of balancing relational generalization and memorization
- Title(参考訳): 関係一般化と記憶のバランスの数学的理論
- Authors: Luke Cheng, Samuel Lippl,
- Abstract要約: 我々は、タスクパラダイムの欠如が、この本質的な能力の研究を妨げると論じている。
我々は、ニューラルネットワーク学習の単純で理論的に抽出可能なモデルの振る舞いを解析的に特徴付ける。
これらのモデルは、関係一般化と記憶のバランスをとることができる。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans, animals, and modern machine learning models exhibit impressive abilities to learn complex behaviors and generalize these behaviors to unseen situations. This ability requires us to learn rules and regularities that allow for such generalizations. At the same time, in most complex environments, any rule will have its exceptions. How do learning systems balance between learning general regularities and memorizing exceptions? We argue that a lack of task paradigms has hindered the study of this essential ability. To address this gap, we introduce a novel task, transitive inference with exceptions, that tests for relational generalization and memorization of an exception to the relational rule. We then analytically characterize the behavior of a simple, theoretically tractable model of neural network learning (kernel ridge regression) across a broad family of representations and task parameters. We find that these models can balance between relational generalization and memorization, but unlike for transitive inference without an exception, successful generalization is sensitive to the specific representational geometry. We explain why this task is more challenging mechanistically by drawing on our analytical theory. Finally, we validate our theoretical insights in pretrained language models that are finetuned on ordered relations, finding that these models successfully generalize according to the transitive rule, but also make the kinds of systematic mistakes predicted by our theory. Overall, our theory shows how learning systems can balance between relational generalization and memorization, explains how this can go wrong, and emphasizes the need for new task paradigms designed to probe this ability.
- Abstract(参考訳): 人間、動物、そして現代の機械学習モデルは、複雑な振る舞いを学び、これらの振る舞いを目に見えない状況に一般化する印象的な能力を示す。
この能力は、そのような一般化を可能にする規則や規則を学ぶ必要がある。
同時に、ほとんどの複雑な環境では、どんなルールにも例外がある。
学習システムは一般正規性と暗記例外との間にどのようにバランスをとるか?
我々は、タスクパラダイムの欠如が、この本質的な能力の研究を妨げると論じている。
このギャップに対処するために、リレーショナルな一般化のためのテストと、リレーショナルな規則の例外を記憶する新しいタスク、例外付き推移的推論を導入する。
そこで我々は、ニューラルネットワーク学習(カーネルリッジ回帰)の単純で理論的に抽出可能なモデルの動作を、幅広い表現とタスクパラメータのファミリーにわたって解析的に特徴付ける。
これらのモデルは関係一般化と記憶のバランスをとることができるが、例外のない推移的推論とは異なり、成功一般化は特定の表現幾何学に敏感である。
この課題が、我々の分析理論に基づいて、機械的により困難である理由を説明する。
最後に、順序関係を微調整した事前学習言語モデルの理論的洞察を検証し、これらのモデルが推移規則に従って一般化するのに成功し、また、我々の理論によって予測される体系的誤りの種別も検証する。
全体として、我々の理論は、学習システムがリレーショナル一般化と記憶のバランスをとる方法を示し、これがいかにうまくいかないかを説明し、この能力を探求するために設計された新しいタスクパラダイムの必要性を強調している。
関連論文リスト
- Deep Learning is Not So Mysterious or Different [54.5330466151362]
我々は、異常な一般化行動はニューラルネットワークとは異なるものではないと主張している。
我々はこれらの現象を説明する上で重要な統一原理として、軟性誘導バイアスを提示する。
また、ディープラーニングが、表現学習の能力など、他の方法と相対的に異なる点を強調します。
論文 参考訳(メタデータ) (2025-03-03T22:56:04Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定された構成的表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
本研究は, 学習データの統計的構造が構成一般化にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning [80.1018596899899]
ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
論文 参考訳(メタデータ) (2023-04-11T17:22:22Z) - Realizable Learning is All You Need [21.34668631009594]
実現可能かつ不可知的な学習可能性の同値性は、学習理論における基本的な現象である。
実現可能かつ不可知な学習可能性の同値性を説明する最初のモデルに依存しないフレームワークを提示する。
論文 参考訳(メタデータ) (2021-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。