論文の概要: A Latent Space Theory for Emergent Abilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.09960v3
- Date: Wed, 13 Sep 2023 18:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:09:51.395497
- Title: A Latent Space Theory for Emergent Abilities in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発能力の潜在空間理論
- Authors: Hui Jiang
- Abstract要約: 言語はランダムに生成されるのではなく、情報を伝えることが示される。
言語とその根底にある意味の強い関係は、疎結合の分布をもたらす。
ビッグデータと大規模モデルに基づいて訓練されたLLMの出現により、言語の境界分布を正確に評価できるようになった。
- 参考スコア(独自算出の注目度): 5.033924641692716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages are not created randomly but rather to communicate information.
There is a strong association between languages and their underlying meanings,
resulting in a sparse joint distribution that is heavily peaked according to
their correlations. Moreover, these peak values happen to match with the
marginal distribution of languages due to the sparsity. With the advent of LLMs
trained on big data and large models, we can now precisely assess the marginal
distribution of languages, providing a convenient means of exploring the sparse
structures in the joint distribution for effective inferences. In this paper,
we categorize languages as either unambiguous or {\epsilon}-ambiguous and
present quantitative results to demonstrate that the emergent abilities of
LLMs, such as language understanding, in-context learning, chain-of-thought
prompting, and effective instruction fine-tuning, can all be attributed to
Bayesian inference on the sparse joint distribution of languages.
- Abstract(参考訳): 言語はランダムに作られるのではなく、情報を伝える。
言語とその根底にある意味の間には強い関連があり、その結果、それらの相関によってピークを極める疎結合分布となる。
さらに、これらのピーク値は、スパーシリティによる言語の限界分布と一致します。
ビッグデータと大規模モデルで訓練されたllmの出現により、言語の限界分布を正確に評価することができ、効果的な推論のためにジョイント分布のスパース構造を探索する便利な手段を提供する。
本稿では,言語理解,文脈内学習,思考の連鎖的促進,効果的な命令の微調整などllmの創発的能力が,言語の疎結合分布に対するベイズ推定に起因していることを示すために,言語を曖昧あるいは不明瞭に分類し,定量的な結果を示す。
関連論文リスト
- Align after Pre-train: Improving Multilingual Generative Models with
Cross-lingual Alignment [46.56459977441824]
本稿では,一対の翻訳文を利用した簡易かつ効果的なアライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から, 事前学習トークンの 0.1 文節未満であっても, アライメントフレームワークは生成モデルの言語横断能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - How Abstract Is Linguistic Generalization in Large Language Models?
Experiments with Argument Structure [2.530495315660486]
本研究では,事前学習したトランスフォーマーに基づく大規模言語モデルがコンテキスト間の関係を表現する程度について検討する。
LLMは、関連する文脈間の新しい名詞引数の分布を一般化する上で、よく機能することがわかった。
しかし、LCMは事前学習中に観測されていない関連するコンテキスト間の一般化に失敗する。
論文 参考訳(メタデータ) (2023-11-08T18:58:43Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Semantic-Aware Contrastive Sentence Representation Learning with Large
Language Models [64.348539675761]
本稿では,セマンティック・アウェア・コントラッシブな文表現フレームワークであるSemCSRを提案する。
大規模言語モデル(LLM)の生成と評価機能を利用することで,高品質なNLI型コーパスを自動構築する。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。