Fugu-MT 論文翻訳(概要): Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition

論文の概要: Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition

arxiv url: http://arxiv.org/abs/2402.15175v1
Date: Fri, 23 Feb 2024 08:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:07:55.979796
Title: Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition
Title（参考訳）: グローキング, ダブルディフレッシュ, 創発的能力の統一的視点:回路コンペティションの視点から
Authors: Yufei Huang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun
Abstract要約: 近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
参考スコア（独自算出の注目度）: 83.13280812128411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have uncovered intriguing phenomena in deep learning, such as grokking, double descent, and emergent abilities in large language models, which challenge human intuition and are crucial for a deeper understanding of neural models. In this paper, we present a comprehensive framework that provides a unified view of these three phenomena, focusing on the competition between memorization and generalization circuits. This approach, initially employed to explain grokking, is extended in our work to encompass a wider range of model sizes and training data volumes. Our framework delineates four distinct training dynamics, each depending on varying combinations of model size and training data quantity. Utilizing this framework, we provide a detailed analysis of the double descent phenomenon and propose two verifiable predictions regarding its occurrence, both substantiated by our experimental results. Moreover, we expand our framework to the multi-task learning paradigm, demonstrating how algorithm tasks can be turned into emergent abilities. This offers a novel perspective to understand emergent abilities in Large Language Models.
Abstract（参考訳）: 近年の研究では、人間の直観に挑戦し、神経モデルのより深い理解に不可欠である、大規模言語モデルにおけるグロッキング、ダブル降下、創発能力など、ディープラーニングにおける興味深い現象が発見されている。本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的なビューを提供する包括的枠組みを提案する。このアプローチは、当初グラッキングを説明するために使用されていたが、より広い範囲のモデルサイズとトレーニングデータボリュームを含むよう、我々の作業で拡張されている。本フレームワークでは,モデルサイズとトレーニングデータ量の違いに応じて,4つの異なるトレーニングダイナミクスを記述している。この枠組みを利用して, 二重降下現象の詳細な解析を行い, その発生に関する2つの検証可能な予測を提案する。さらに、我々のフレームワークをマルチタスク学習パラダイムに拡張し、アルゴリズムタスクを創発的な能力にする方法を実証する。これは、大規模言語モデルにおける創発的能力を理解するための新しい視点を提供する。

関連論文リスト

Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文参考訳（メタデータ） (2025-06-05T16:10:47Z)
The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-23T13:14:02Z)
Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文参考訳（メタデータ） (2024-11-14T08:22:42Z)
Rethinking Weight-Averaged Model-merging [15.2881959315021]
モデルマージはディープラーニングにおける強力なアプローチとして現れ、トレーニングなしでモデルパフォーマンスを向上させることができる。この手法を3つの新しい視点から検討し、なぜ、平均的なモデルマージがどのように機能するかについてより深い知見を提供する。私たちの発見は、平均的なモデルマージの"ブラックボックス"に光を当て、貴重な洞察と実践的なレコメンデーションを提供しました。
論文参考訳（メタデータ） (2024-11-14T08:02:14Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models [51.43538150982291]
人間の解釈可能な概念をデータから学習する方法を研究する。両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文参考訳（メタデータ） (2024-02-14T15:23:59Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文参考訳（メタデータ） (2023-02-23T12:50:02Z)
A Survey of Methods, Challenges and Perspectives in Causality [11.238098505498165]
我々は様々な観点から因果関係の理論と手法を概観する。フィールドをまとめようという初期の試みと、将来の展望を示します。
論文参考訳（メタデータ） (2023-02-01T07:47:26Z)
Internal Representations of Vision Models Through the Lens of Frames on Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文参考訳（メタデータ） (2022-11-19T01:48:19Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。