論文の概要: Are most sentences unique? An empirical examination of Chomskyan claims
- arxiv url: http://arxiv.org/abs/2509.19108v1
- Date: Tue, 23 Sep 2025 14:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.911371
- Title: Are most sentences unique? An empirical examination of Chomskyan claims
- Title(参考訳): ほとんどの文はユニークか? チョムスキーの主張の実証的研究
- Authors: Hiram Ring,
- Abstract要約: 言語学における主張は、ほとんどの言語発話は独特であるということである。
大型コーパスが利用可能になるにつれて、これは実験的に研究できる主張である。
現在の論文では、NLTK Pythonライブラリを使って様々なジャンルのコーパスを解析することで、この問題に対処している。
結果は、完全に一意な文はコーパスの大部分を占めることが多いが、これはジャンルによって非常に制約されており、重複文は個々のコーパスの重要部分ではないことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A repeated claim in linguistics is that the majority of linguistic utterances are unique. For example, Pinker (1994: 10), summarizing an argument by Noam Chomsky, states that "virtually every sentence that a person utters or understands is a brand-new combination of words, appearing for the first time in the history of the universe." With the increased availability of large corpora, this is a claim that can be empirically investigated. The current paper addresses the question by using the NLTK Python library to parse corpora of different genres, providing counts of exact string matches in each. Results show that while completely unique sentences are often the majority of corpora, this is highly constrained by genre, and that duplicate sentences are not an insignificant part of any individual corpus.
- Abstract(参考訳): 言語学における繰り返しの主張は、言語的発話の大部分は独特であるということである。
例えば、Pinker (1994: 10) はノーム・チョムスキーの主張を要約し、「ある人が発する、または理解するすべての文は、宇宙の歴史の中で初めて現れる新しい単語の組み合わせである」と述べている。
大型コーパスが利用可能になるにつれて、これは実験的に研究できる主張である。
現在の論文では、NLTK Pythonライブラリを使用して、異なるジャンルのコーパスを解析し、それぞれに正確な文字列マッチの数を付与することで、この問題に対処している。
結果は、完全に一意な文はコーパスの大部分を占めることが多いが、これはジャンルによって非常に制約されており、重複文は個々のコーパスの重要部分ではないことを示している。
関連論文リスト
- From Small to Large Language Models: Revisiting the Federalist Papers [0.0]
本稿では,よりポピュラーなLarge Language Model (LLM) ツールについてレビューし,テキスト分類の文脈における統計的観点から検討する。
本研究では, ファインチューンを使わずに, 一般的な埋め込み構造がスタイメトリーや属性に有用であるかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T21:50:46Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - The Fewer Splits are Better: Deconstructing Readability in Sentence
Splitting [0.0]
文章分割(文分割)は、文章の単純化のサブフィールドであり、文章を断片に分割すると理解しやすくなるという、証明できない考え方に主に動機付けられている。
特に我々は、文章を2つか3つに分割するかどうかが問題なのかと尋ねる。Amazon Mechanical Turkの調査結果を報告する。
論文 参考訳(メタデータ) (2023-02-02T08:25:48Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。