論文の概要: A Latent Space Theory for Emergent Abilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.09960v3
- Date: Wed, 13 Sep 2023 18:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:09:51.395497
- Title: A Latent Space Theory for Emergent Abilities in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発能力の潜在空間理論
- Authors: Hui Jiang
- Abstract要約: 言語はランダムに生成されるのではなく、情報を伝えることが示される。
言語とその根底にある意味の強い関係は、疎結合の分布をもたらす。
ビッグデータと大規模モデルに基づいて訓練されたLLMの出現により、言語の境界分布を正確に評価できるようになった。
- 参考スコア(独自算出の注目度): 5.033924641692716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages are not created randomly but rather to communicate information.
There is a strong association between languages and their underlying meanings,
resulting in a sparse joint distribution that is heavily peaked according to
their correlations. Moreover, these peak values happen to match with the
marginal distribution of languages due to the sparsity. With the advent of LLMs
trained on big data and large models, we can now precisely assess the marginal
distribution of languages, providing a convenient means of exploring the sparse
structures in the joint distribution for effective inferences. In this paper,
we categorize languages as either unambiguous or {\epsilon}-ambiguous and
present quantitative results to demonstrate that the emergent abilities of
LLMs, such as language understanding, in-context learning, chain-of-thought
prompting, and effective instruction fine-tuning, can all be attributed to
Bayesian inference on the sparse joint distribution of languages.
- Abstract(参考訳): 言語はランダムに作られるのではなく、情報を伝える。
言語とその根底にある意味の間には強い関連があり、その結果、それらの相関によってピークを極める疎結合分布となる。
さらに、これらのピーク値は、スパーシリティによる言語の限界分布と一致します。
ビッグデータと大規模モデルで訓練されたllmの出現により、言語の限界分布を正確に評価することができ、効果的な推論のためにジョイント分布のスパース構造を探索する便利な手段を提供する。
本稿では,言語理解,文脈内学習,思考の連鎖的促進,効果的な命令の微調整などllmの創発的能力が,言語の疎結合分布に対するベイズ推定に起因していることを示すために,言語を曖昧あるいは不明瞭に分類し,定量的な結果を示す。
関連論文リスト
- Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [79.72910257530795]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。
非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。