論文の概要: A Theory for Emergence of Complex Skills in Language Models
- arxiv url: http://arxiv.org/abs/2307.15936v2
- Date: Mon, 6 Nov 2023 00:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:39:58.665755
- Title: A Theory for Emergence of Complex Skills in Language Models
- Title(参考訳): 言語モデルにおける複雑なスキルの創出の理論
- Authors: Sanjeev Arora, Anirudh Goyal
- Abstract要約: 今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
- 参考スコア(独自算出の注目度): 56.947273387302616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major driver of AI products today is the fact that new skills emerge in
language models when their parameter set and training corpora are scaled up.
This phenomenon is poorly understood, and a mechanistic explanation via
mathematical analysis of gradient-based training seems difficult. The current
paper takes a different approach, analysing emergence using the famous (and
empirical) Scaling Laws of LLMs and a simple statistical framework.
Contributions include: (a) A statistical framework that relates cross-entropy
loss of LLMs to competence on the basic skills that underlie language tasks.
(b) Mathematical analysis showing that the Scaling Laws imply a strong form of
inductive bias that allows the pre-trained model to learn very efficiently. We
informally call this {\em slingshot generalization} since naively viewed it
appears to give competence levels at skills that violate usual generalization
theory. (c) A key example of slingshot generalization, that competence at
executing tasks involving $k$-tuples of skills emerges essentially at the same
scaling and same rate as competence on the elementary skills themselves.
- Abstract(参考訳): 今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
この現象はよく理解されておらず、勾配に基づくトレーニングの数学的解析による力学的な説明は困難である。
本論文は,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,出現を解析し,異なるアプローチをとる。
貢献は以下の通り。
(a)LLMのクロスエントロピー損失を言語課題の根底にある基本的なスキルの能力に関連付ける統計的枠組み。
(b)スケーリング法則は、事前学習モデルが非常に効率的に学習できる誘導バイアスの強い形を意味することを示す数学的解析。
これを非公式に「em slingshot generalization」と呼ぶが、これは通常の一般化理論に違反するスキルの能力レベルを与えると見なされているからである。
(c)スリングショットの一般化の鍵となる例は、基本スキルそのものの能力と同じスケーリングと同等の速度で、$k$-tuplesのスキルを含むタスクを実行する能力が現われることである。
関連論文リスト
- Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of
Syntax [40.40069999922899]
In-context Learning (ICL)は、大規模言語モデル(LLM)を監督する一般的な方法である。
ICLの普及と実用性にもかかわらず、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかはほとんど分かっていない。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Machine-assisted mixed methods: augmenting humanities and social
sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)の能力の増大は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会となる。
このコントリビューションは、定性的な分析専門知識とマシンスケーラビリティを活用するための、体系的な混合メソッドフレームワークを提案する。
課題には言語と談話の分析、語彙の意味変化の検出、インタビュー分析、歴史的事象原因推論、テキストマイニングなどが含まれる。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large
Language Models [71.60282319755527]
本稿では,LLMに対して,より複雑な問題を解決するための基本的なスキルの作り方を指示する,SKiCプロンプトを提案する。
我々は、同じプロンプトの文脈において、スキルと構成例の両方を実証することが重要であることに気付きました。
このような顕著な特徴により、SKiCプロンプトは、挑戦的な数学的推論ベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency [14.618731441943847]
非言語的なスキルインジェクションは、コア言語スキルを壊滅的に忘れてしまう。
我々のモデルは、注入された非言語的スキルと言語知識の保持の両方において、最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-05-14T20:57:11Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。