論文の概要: Dynamics of Concept Learning and Compositional Generalization
- arxiv url: http://arxiv.org/abs/2410.08309v1
- Date: Thu, 10 Oct 2024 18:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:06:19.030788
- Title: Dynamics of Concept Learning and Compositional Generalization
- Title(参考訳): 概念学習のダイナミクスと構成的一般化
- Authors: Yongyi Yang, Core Francisco Park, Ekdeep Singh Lubana, Maya Okawa, Wei Hu, Hidenori Tanaka,
- Abstract要約: 本稿では,モデルが学習し,構造的に整理されたセントロイドとガウス混合体上でのアイデンティティマッピングを学習するSIMタスクを提案する。
我々は、このSIMタスクでトレーニングされたニューラルネットワークの学習力学を数学的に解析し、その単純さにもかかわらず、SIMの学習力学が重要な経験的観察を捉え、説明するのに役立っていることを示す。
私たちの理論はまた、トレーニングの初期段階におけるテスト損失の非単調学習ダイナミクスの新しいメカニズムを見つけるなど、いくつかの新しい洞察を提供する。
- 参考スコア(独自算出の注目度): 23.43600409313907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work has shown that text-conditioned diffusion models can learn to identify and manipulate primitive concepts underlying a compositional data-generating process, enabling generalization to entirely novel, out-of-distribution compositions. Beyond performance evaluations, these studies develop a rich empirical phenomenology of learning dynamics, showing that models generalize sequentially, respecting the compositional hierarchy of the data-generating process. Moreover, concept-centric structures within the data significantly influence a model's speed of learning the ability to manipulate a concept. In this paper, we aim to better characterize these empirical results from a theoretical standpoint. Specifically, we propose an abstraction of prior work's compositional generalization problem by introducing a structured identity mapping (SIM) task, where a model is trained to learn the identity mapping on a Gaussian mixture with structurally organized centroids. We mathematically analyze the learning dynamics of neural networks trained on this SIM task and show that, despite its simplicity, SIM's learning dynamics capture and help explain key empirical observations on compositional generalization with diffusion models identified in prior work. Our theory also offers several new insights -- e.g., we find a novel mechanism for non-monotonic learning dynamics of test loss in early phases of training. We validate our new predictions by training a text-conditioned diffusion model, bridging our simplified framework and complex generative models. Overall, this work establishes the SIM task as a meaningful theoretical abstraction of concept learning dynamics in modern generative models.
- Abstract(参考訳): 以前の研究は、テキスト条件付き拡散モデルが、合成データ生成プロセスの根底にある原始概念を識別し、操作することを学習し、完全に新規な分布外合成を一般化できることを示した。
性能評価の他に、これらの研究は学習力学の豊かな経験的現象論を発展させ、モデルがデータ生成過程の構成的階層を尊重し、逐次的に一般化することを示した。
さらに、データ内の概念中心構造は、概念を操作する能力の学習速度に大きな影響を及ぼす。
本稿では,これらの実験結果を理論的観点からよりよく特徴付けることを目的としている。
具体的には,モデルがガウス混合体と構造的に整理された遠心体との恒等写像を学習するために訓練された構造化IDマッピング(SIM)タスクを導入することで,先行作業の合成一般化問題の抽象化を提案する。
我々は,このSIMタスクで訓練されたニューラルネットワークの学習力学を数学的に解析し,その単純さにもかかわらず,SIMの学習力学は,先行研究で同定された拡散モデルを用いた構成一般化に関する重要な経験的観察を捉えるのに役立つことを示す。
私たちの理論は、トレーニングの初期段階におけるテスト損失の非単調な学習ダイナミクスの新たなメカニズムを見つけるなど、いくつかの新しい洞察も提供しています。
我々は、テキスト条件付き拡散モデルを訓練し、単純化されたフレームワークと複雑な生成モデルをブリッジすることで、新しい予測を検証する。
全体として、この研究はSIMタスクを現代の生成モデルにおける概念学習ダイナミクスの有意義な理論的抽象化として確立している。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Dynamics of Meta-learning Representation in the Teacher-student Scenario [8.099691748821114]
グラディエントベースのメタ学習アルゴリズムは、限られたデータを使って新しいタスクでモデルをトレーニングできることで人気を集めている。
本研究では,教師・学生シナリオにおけるストリーミングタスクを訓練した非線形2層ニューラルネットワークのメタラーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-22T16:59:32Z) - Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective [60.64922606733441]
我々は,関係学習をハイパーグラフリカバリとして形式化する数学的モデルを導入し,基礎モデル(FM)の事前学習について検討する。
我々のフレームワークでは、世界はハイパーグラフとして表現され、データはハイパーエッジからランダムなサンプルとして抽象化される。我々は、このハイパーグラフを復元するための事前学習モデル(PTM)の有効性を理論的に検証し、ミニマックスに近い最適スタイルでデータ効率を解析する。
論文 参考訳(メタデータ) (2024-06-17T06:20:39Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Compositional Abilities Emerge Multiplicatively: Exploring Diffusion
Models on a Synthetic Task [20.749514363389878]
合成環境における条件拡散モデルにおける合成一般化について検討する。
サンプルを生成する能力が出現する順番は、基礎となるデータ生成プロセスの構造によって制御される。
本研究は、データ中心の観点から、生成モデルにおける能力と構成性を理解するための基礎を築いた。
論文 参考訳(メタデータ) (2023-10-13T18:00:59Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Towards a Predictive Processing Implementation of the Common Model of
Cognition [79.63867412771461]
本稿では,ニューラル生成符号化とホログラフィック連想記憶に基づく認知モデルの実装について述べる。
提案システムは,多様なタスクから継続的に学習し,大規模に人的パフォーマンスをモデル化するエージェントを開発するための基盤となる。
論文 参考訳(メタデータ) (2021-05-15T22:55:23Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。