論文の概要: Heaps' Law in GPT-Neo Large Language Model Emulated Corpora
- arxiv url: http://arxiv.org/abs/2311.06377v1
- Date: Fri, 10 Nov 2023 20:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:00:24.774790
- Title: Heaps' Law in GPT-Neo Large Language Model Emulated Corpora
- Title(参考訳): GPT-Neo大言語モデルエミュレートコーパスにおけるヒープの法則
- Authors: Uyen Lai, Gurjit S. Randhawa, Paul Sheridan
- Abstract要約: ヘプスの法則(ヘプスのほう、英: Heaps' law)は、コーパスサイズの関数として語彙の成長を予測するテキスト分析における経験的関係である。
本研究では,GPT-Neo大言語モデルを用いたコーパスのエミュレーションに焦点を当てた。
- 参考スコア(独自算出の注目度): 2.7234916145234713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heaps' law is an empirical relation in text analysis that predicts vocabulary
growth as a function of corpus size. While this law has been validated in
diverse human-authored text corpora, its applicability to large language model
generated text remains unexplored. This study addresses this gap, focusing on
the emulation of corpora using the suite of GPT-Neo large language models. To
conduct our investigation, we emulated corpora of PubMed abstracts using three
different parameter sizes of the GPT-Neo model. Our emulation strategy involved
using the initial five words of each PubMed abstract as a prompt and
instructing the model to expand the content up to the original abstract's
length. Our findings indicate that the generated corpora adhere to Heaps' law.
Interestingly, as the GPT-Neo model size grows, its generated vocabulary
increasingly adheres to Heaps' law as as observed in human-authored text. To
further improve the richness and authenticity of GPT-Neo outputs, future
iterations could emphasize enhancing model size or refining the model
architecture to curtail vocabulary repetition.
- Abstract(参考訳): ヒープの法則はテキスト解析における経験的関係であり、コーパスサイズの関数として語彙の成長を予測する。
この法律は、多種多様な人間によって書かれたテキストコーパスで検証されているが、大きな言語モデルが生成したテキストへの適用性は未調査のままである。
本研究では,GPT-Neo大言語モデルを用いたコーパスのエミュレーションに着目し,このギャップに対処する。
我々は,GPT-Neoモデルの3つのパラメータサイズを用いて,PubMed抽象体のコーパスをエミュレートした。
我々のエミュレーション戦略は、各PubMed抽象語の初期5単語をプロンプトとして使用し、元の抽象語長まで拡張するようにモデルに指示することであった。
得られたコーパスはHeapsの法則に従うことが示唆された。
興味深いことに、gpt-neoモデルのサイズが大きくなるにつれて、生成された語彙は、人間の著作で見られるようにヒープの法則に固執するようになった。
gpt-neo出力の豊かさと信頼性をさらに向上させるため、将来のイテレーションでは、モデルサイズの向上や、語彙反復を短縮するためのモデルアーキテクチャの改良が強調される。
関連論文リスト
- JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Do Large GPT Models Discover Moral Dimensions in Language
Representations? A Topological Study Of Sentence Embeddings [0.7416846035207727]
本稿では,Chat-GPTの基礎言語モデル「脳」における神経活動のトポロジ的構造を考察し,公平性の概念を表す指標として分析する。
まず、社会文学にインスパイアされた公正度尺度を計算し、正当性、必要性、責任など、人間の公正度評価に典型的な影響を及ぼす要因を特定する。
その結果, GPT-3.5に基づく文の埋め込みは, 公平かつ不公平な道徳判断に対応する2つのサブ多様体に分解できることがわかった。
論文 参考訳(メタデータ) (2023-09-17T23:38:39Z) - Galactic ChitChat: Using Large Language Models to Converse with
Astronomy Literature [0.0]
我々は,現在最先端のOpenAI GPT-4大言語モデルが天文学論文との有意義な相互作用に関与する可能性を実証する。
我々は, 原紙のサイズを50%削減する蒸留技術を採用している。
次に、マルチドキュメントコンテキストを用いてモデルの応答を探索する。
論文 参考訳(メタデータ) (2023-04-12T03:02:20Z) - Retrieval augmentation of large language models for lay language
generation [12.686922203465896]
本稿では,最大 (63kペア) および最大 (12ジャーナル) 並列コーパスである CellS を紹介した。
抽象化とそれに対応するレイ言語要約は、ドメインの専門家によって書かれ、データセットの品質が保証されます。
我々はCellSから2つの特別なペアコーパスを抽出し、素言語生成における重要な課題に対処する。
論文 参考訳(メタデータ) (2022-11-07T19:06:53Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Corpus-Based Paraphrase Detection Experiments and Review [0.0]
パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約など、多くのアプリケーションにとって重要である。
本稿では,多種多様なコーパスベースモデル,特にディープラーニング(DL)モデルの性能概要とパラフレーズ検出の課題について述べる。
論文 参考訳(メタデータ) (2021-05-31T23:29:24Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。