論文の概要: A Theory for Emergence of Complex Skills in Language Models
- arxiv url: http://arxiv.org/abs/2307.15936v2
- Date: Mon, 6 Nov 2023 00:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:39:58.665755
- Title: A Theory for Emergence of Complex Skills in Language Models
- Title(参考訳): 言語モデルにおける複雑なスキルの創出の理論
- Authors: Sanjeev Arora, Anirudh Goyal
- Abstract要約: 今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
- 参考スコア(独自算出の注目度): 56.947273387302616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major driver of AI products today is the fact that new skills emerge in
language models when their parameter set and training corpora are scaled up.
This phenomenon is poorly understood, and a mechanistic explanation via
mathematical analysis of gradient-based training seems difficult. The current
paper takes a different approach, analysing emergence using the famous (and
empirical) Scaling Laws of LLMs and a simple statistical framework.
Contributions include: (a) A statistical framework that relates cross-entropy
loss of LLMs to competence on the basic skills that underlie language tasks.
(b) Mathematical analysis showing that the Scaling Laws imply a strong form of
inductive bias that allows the pre-trained model to learn very efficiently. We
informally call this {\em slingshot generalization} since naively viewed it
appears to give competence levels at skills that violate usual generalization
theory. (c) A key example of slingshot generalization, that competence at
executing tasks involving $k$-tuples of skills emerges essentially at the same
scaling and same rate as competence on the elementary skills themselves.
- Abstract(参考訳): 今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
この現象はよく理解されておらず、勾配に基づくトレーニングの数学的解析による力学的な説明は困難である。
本論文は,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,出現を解析し,異なるアプローチをとる。
貢献は以下の通り。
(a)LLMのクロスエントロピー損失を言語課題の根底にある基本的なスキルの能力に関連付ける統計的枠組み。
(b)スケーリング法則は、事前学習モデルが非常に効率的に学習できる誘導バイアスの強い形を意味することを示す数学的解析。
これを非公式に「em slingshot generalization」と呼ぶが、これは通常の一般化理論に違反するスキルの能力レベルを与えると見なされているからである。
(c)スリングショットの一般化の鍵となる例は、基本スキルそのものの能力と同じスケーリングと同等の速度で、$k$-tuplesのスキルを含むタスクを実行する能力が現われることである。
関連論文リスト
- Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - A Mathematical Theory for Learning Semantic Languages by Abstract Learners [9.139188656944429]
本研究では,学習過程を考慮に入れて,学習スキルの出現を説明する数学的理論を開発する。
トレーニングテキスト数とスキル数との比率が一定の閾値を超えた場合、学習スキルの出現を実証する。
本研究では, サイトパーコレーション解析を用いて, スキルアソシエーショングラフにおける巨大成分の存在条件を導出する。
論文 参考訳(メタデータ) (2024-04-10T13:50:46Z) - Laying the Foundation First? Investigating the Generalization from Atomic Skills to Complex Reasoning Tasks [40.7766635942194]
本稿では,原子スキルが複雑な推論タスクに自然に一般化できるかどうかを探索する枠組みを提案する。
次に、より優れたスキルの一般化を実現するために、階層的なカリキュラム学習訓練戦略を導入する。
階層的なカリキュラム学習を活用することで、一般化を成功させ、複雑な推論タスクにおけるオープンソースのLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T15:20:54Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会であることが示された。
設計原則を定量化し、変換し、言語学から特徴分析し、人間の専門知識と機械のスケーラビリティを透過的に統合する混合手法を構築します。
このアプローチは、1ダース以上のLDM支援ケーススタディで議論され、9つの多様な言語、複数の規律、タスクをカバーしている。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency [14.618731441943847]
非言語的なスキルインジェクションは、コア言語スキルを壊滅的に忘れてしまう。
我々のモデルは、注入された非言語的スキルと言語知識の保持の両方において、最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-05-14T20:57:11Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。