Fugu-MT 論文翻訳(概要): Entropy and type-token ratio in gigaword corpora

論文の概要: Entropy and type-token ratio in gigaword corpora

arxiv url: http://arxiv.org/abs/2411.10227v2
Date: Wed, 26 Feb 2025 22:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.260566
Title: Entropy and type-token ratio in gigaword corpora
Title（参考訳）: ギガワードコーパスにおけるエントロピーとタイプトケン比
Authors: Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez,
Abstract要約: 語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。英語,スペイン語,トルコ語の6つの大規模言語データセットにおける多様性指標について検討した。与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにした。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There are different ways of measuring diversity in complex systems. In particular, in language, lexical diversity is characterized in terms of the type-token ratio and the word entropy. We here investigate both diversity metrics in six massive linguistic datasets in English, Spanish, and Turkish, consisting of books, news articles, and tweets. These gigaword corpora correspond to languages with distinct morphological features and differ in registers and genres, thus constituting a varied testbed for a quantitative approach to lexical diversity. We unveil an empirical functional relation between entropy and type-token ratio of texts of a given corpus and language, which is a consequence of the statistical laws observed in natural language. Further, in the limit of large text lengths we find an analytical expression for this relation relying on both Zipf and Heaps laws that agrees with our empirical findings.
Abstract（参考訳）: 複雑なシステムにおいて多様性を測定する方法は様々である。特に言語では、語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。本稿では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,本,ニュース記事,つぶやきからなる多様性指標について検討する。これらのギガワードコーパスは、異なる形態的特徴を持つ言語に対応し、レジスタやジャンルが異なるため、語彙多様性に対する定量的アプローチのための様々なテストベッドを構成する。本研究では,与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにし,これは自然言語で観測される統計法則の結果である。さらに、大文字長の限界において、我々の経験的発見に一致するZipf法とHeaps法則の両方に依存して、この関係を解析的に表現する。

関連論文リスト

Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent [22.63155507847401]
我々は,韻律を用いて語彙を区別する言語は,韻律と単語の同一性の間に高い相互情報を示すべきであると予測した。テキストとピッチ曲線の相互情報を推定するために、5つの言語ファミリーで10の言語で発音された文を読み取る話者のデータセットを使用する。
論文参考訳（メタデータ） (2025-05-12T15:25:17Z)
Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文参考訳（メタデータ） (2024-06-25T15:41:07Z)
Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models [0.0]
本稿では,アラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響について検討する。本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。
論文参考訳（メタデータ） (2024-03-17T07:44:44Z)
Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores [28.431348662950743]
テキストの繰り返しを計測し抽出するためのPythonパッケージをリリースする。ユーザがテキストの繰り返しをインタラクティブに探索するための、多様性に基づくプラットフォームを構築します。
論文参考訳（メタデータ） (2024-03-01T14:23:12Z)
Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文参考訳（メタデータ） (2024-02-18T11:46:16Z)
Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文参考訳（メタデータ） (2024-01-03T12:05:38Z)
Lexical Diversity in Kinship Across Languages and Dialects [6.80465507148218]
本稿では,言語多様性に関する内容と計算語彙を融合させる手法を提案する。本手法は、血縁用語に関する2つの大規模ケーススタディを通じて検証される。
論文参考訳（メタデータ） (2023-08-24T19:49:30Z)
Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文参考訳（メタデータ） (2022-12-21T09:44:08Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文参考訳（メタデータ） (2022-09-15T21:19:31Z)
Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文参考訳（メタデータ） (2022-08-23T20:03:27Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)
Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文参考訳（メタデータ） (2020-04-29T03:34:53Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。