論文の概要: "Genlangs" and Zipf's Law: Do languages generated by ChatGPT
statistically look human?
- arxiv url: http://arxiv.org/abs/2304.12191v1
- Date: Fri, 31 Mar 2023 20:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:38:11.405394
- Title: "Genlangs" and Zipf's Law: Do languages generated by ChatGPT
statistically look human?
- Title(参考訳): 言語」とZipfの法則:ChatGPTで生成された言語は統計的に人間に見えるか?
- Authors: Justin Diamond
- Abstract要約: 本研究では, ChatGPT が生成した genlang が Zipf の法則に従うかどうかを検討する。
Zipfの法則は、自然および人工的に構築されたすべての人間の言語をほぼ包含する。
我々は、人間の援助により、AIは世界で初めて完全に機能する言語を作ることができると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenAI's GPT-4 is a Large Language Model (LLM) that can generate coherent
constructed languages, or "conlangs," which we propose be called "genlangs"
when generated by Artificial Intelligence (AI). The genlangs created by ChatGPT
for this research (Voxphera, Vivenzia, and Lumivoxa) each have unique features,
appear facially coherent, and plausibly "translate" into English. This study
investigates whether genlangs created by ChatGPT follow Zipf's law. Zipf's law
approximately holds across all natural and artificially constructed human
languages. According to Zipf's law, the word frequencies in a text corpus are
inversely proportional to their rank in the frequency table. This means that
the most frequent word appears about twice as often as the second most frequent
word, three times as often as the third most frequent word, and so on. We
hypothesize that Zipf's law will hold for genlangs because (1) genlangs created
by ChatGPT fundamentally operate in the same way as human language with respect
to the semantic usefulness of certain tokens, and (2) ChatGPT has been trained
on a corpora of text that includes many different languages, all of which
exhibit Zipf's law to varying degrees. Through statistical linguistics, we aim
to understand if LLM-based languages statistically look human. Our findings
indicate that genlangs adhere closely to Zipf's law, supporting the hypothesis
that genlangs created by ChatGPT exhibit similar statistical properties to
natural and artificial human languages. We also conclude that with human
assistance, AI is already capable of creating the world's first
fully-functional genlang, and we call for its development.
- Abstract(参考訳): OpenAIのGPT-4はLarge Language Model(LLM)で、コヒーレントな構築言語(conlangs)を生成できる。
この研究のためにChatGPTによって作成された言語(Voxphera、Vivenzia、Lumivoxa)は、それぞれ独特の特徴を持ち、顔のコヒーレントに見え、英語に翻訳される。
本研究では, ChatGPT が生成した genlang が Zipf の法則に従うかどうかを検討する。
zipfの法則は、自然言語と人工言語にほぼ共通する。
Zipfの法則によると、テキストコーパスの単語周波数は、周波数表のランクに逆比例する。
これは、最も頻度の高い単語が2番目に多い単語の約2倍、最も頻度の高い単語の3倍の頻度で現れることを意味する。
Zipfの法則は,(1)ChatGPTが生成した言語は,特定のトークンの意味的有用性に関して,基本的には人間の言語と同じ方法で動作し,(2)ChatGPTは多くの異なる言語を含むテキストのコーパスで訓練され,それらすべてがZipfの法則を様々な程度に表している。
統計的言語学を通して,LLMに基づく言語が統計的に人間に見えるかを理解することを目的とする。
本研究は,ChatGPTが生成する言語は自然および人工の言語と類似した統計特性を示すという仮説を支持し,ジグフの法則に密接に従っていることを示唆する。
また、人間の支援により、aiはすでに世界初の完全に機能するgenlangを作成でき、その開発を呼びかけていると結論づけています。
関連論文リスト
- Measuring Bullshit in the Language Games played by ChatGPT [41.94295877935867]
生成的大言語モデル(LLM)は真理値と直接対応しないテキストを生成する。
LLMはフランクフルトの有名なモノグラフOn Bullshitに記述されている言語に類似している。
ブルジットの言語統計モデルは、ブルジットの政治・職場機能とフランクフルト人の人工ブルジットを確実に関連付けることができることを示す。
論文 参考訳(メタデータ) (2024-11-22T18:55:21Z) - Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into
the Morphological Capabilities of a Large Language Model [23.60677380868016]
大規模言語モデル (LLM) は近年,人間の言語スキルと比較する上で,目覚ましい言語能力に達している。
そこで本研究では,4言語でChatGPTの形態的能力の厳密な分析を行う。
ChatGPTは、特に英語の目的構築システムでは大幅に性能が低下している。
論文 参考訳(メタデータ) (2023-10-23T17:21:03Z) - Playing with Words: Comparing the Vocabulary and Lexical Richness of
ChatGPT and Humans [3.0059120458540383]
ChatGPTのような生成言語モデルは、テキストの生成方法を変える革命を引き起こした。
ChatGPTのようなツールの使用は、使用する語彙や語彙の豊かさを増減するか?
これは、AI生成コンテンツに含まれないコンテンツは、人気が減り、最終的には失われる傾向があるため、言葉に影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-14T21:19:44Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - Emergence of a phonological bias in ChatGPT [0.0]
私はChatGPTが人間の言語処理の目印となる音韻的バイアスを示すことを実証する。
ChatGPTは母音上の子音を使って単語を識別する傾向がある。
これは、英語やスペイン語のような子音と母音の相対的な分布が異なる言語で観察される。
論文 参考訳(メタデータ) (2023-05-25T10:57:43Z) - Phoenix: Democratizing ChatGPT across Languages [68.75163236421352]
我々は大規模な言語モデル「フェニックス」をリリースし、オープンソースの英語モデルと中国語モデルの間で競合する性能を実現した。
この作業は、特にOpenAIやローカルなゴーバーメントの制限により、人々がChatGPTを使えない国では、ChatGPTをよりアクセスしやすいものにする上で有益であると考えています。
論文 参考訳(メタデータ) (2023-04-20T16:50:04Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Collateral facilitation in humans and language models [0.6091702876917281]
人間は、非常に異常な単語に対して、同様の処理の利点を示す。
本稿では、人間の言語理解と言語モデルによる予測の両方を理解することの意味について論じる。
論文 参考訳(メタデータ) (2022-11-09T21:08:08Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。