論文の概要: Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition
- arxiv url: http://arxiv.org/abs/2402.15175v2
- Date: Mon, 26 Feb 2024 02:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 11:45:40.994110
- Title: Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition
- Title(参考訳): グローキング, ダブルディフレッシュ, 創発的能力の統一的視点:回路コンペティションの視点から
- Authors: Yufei Huang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun
- Abstract要約: 近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
- 参考スコア(独自算出の注目度): 83.13280812128411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have uncovered intriguing phenomena in deep learning, such as
grokking, double descent, and emergent abilities in large language models,
which challenge human intuition and are crucial for a deeper understanding of
neural models. In this paper, we present a comprehensive framework that
provides a unified view of these three phenomena, focusing on the competition
between memorization and generalization circuits. This approach, initially
employed to explain grokking, is extended in our work to encompass a wider
range of model sizes and training data volumes. Our framework delineates four
distinct training dynamics, each depending on varying combinations of model
size and training data quantity. Utilizing this framework, we provide a
detailed analysis of the double descent phenomenon and propose two verifiable
predictions regarding its occurrence, both substantiated by our experimental
results. Moreover, we expand our framework to the multi-task learning paradigm,
demonstrating how algorithm tasks can be turned into emergent abilities. This
offers a novel perspective to understand emergent abilities in Large Language
Models.
- Abstract(参考訳): 近年の研究では、人間の直観に挑戦し、神経モデルのより深い理解に不可欠である、大規模言語モデルにおけるグロッキング、ダブル降下、創発能力など、ディープラーニングにおける興味深い現象が発見されている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的なビューを提供する包括的枠組みを提案する。
このアプローチは、当初グラッキングを説明するために使用されていたが、より広い範囲のモデルサイズとトレーニングデータボリュームを含むよう、我々の作業で拡張されている。
本フレームワークでは,モデルサイズとトレーニングデータ量の違いに応じて,4つの異なるトレーニングダイナミクスを記述している。
この枠組みを利用して, 二重降下現象の詳細な解析を行い, その発生に関する2つの検証可能な予測を提案する。
さらに、我々のフレームワークをマルチタスク学習パラダイムに拡張し、アルゴリズムタスクを創発的な能力にする方法を実証する。
これは、大規模言語モデルにおける創発的能力を理解するための新しい視点を提供する。
関連論文リスト
- Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Learning Interpretable Concepts: Unifying Causal Representation Learning
and Foundation Models [51.43538150982291]
人間の解釈可能な概念をデータから学習する方法を研究する。
両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:23:59Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - A Survey of Methods, Challenges and Perspectives in Causality [11.238098505498165]
我々は様々な観点から因果関係の理論と手法を概観する。
フィールドをまとめようという初期の試みと、将来の展望を示します。
論文 参考訳(メタデータ) (2023-02-01T07:47:26Z) - Internal Representations of Vision Models Through the Lens of Frames on
Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。
私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。
ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文 参考訳(メタデータ) (2022-11-19T01:48:19Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。