論文の概要: Measuring Grammatical Diversity from Small Corpora: Derivational Entropy Rates, Mean Length of Utterances, and Annotation Invariance
- arxiv url: http://arxiv.org/abs/2412.06095v1
- Date: Sun, 08 Dec 2024 22:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:35.909852
- Title: Measuring Grammatical Diversity from Small Corpora: Derivational Entropy Rates, Mean Length of Utterances, and Annotation Invariance
- Title(参考訳): 小型コーパスからの文法的多様性の測定:派生エントロピー率、発話平均長、アノテーションの不変性
- Authors: Fermin Moscoso del Prado Martin,
- Abstract要約: 文法の導出エントロピーと、それが生成する発話の平均長は、基本的にリンクされていることを示す。
MLUは単なるプロキシではなく、統語的多様性の基本的な尺度であるということを実証します。
導出エントロピー率(英: derivational entropy rate)は、異なる文法的アノテーションフレームワークが木バンクの文法的複雑さを決定する速度を指標とする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In many fields, such as language acquisition, neuropsychology of language, the study of aging, and historical linguistics, corpora are used for estimating the diversity of grammatical structures that are produced during a period by an individual, community, or type of speakers. In these cases, treebanks are taken as representative samples of the syntactic structures that might be encountered. Generalizing the potential syntactic diversity from the structures documented in a small corpus requires careful extrapolation whose accuracy is constrained by the limited size of representative sub-corpora. In this article, I demonstrate -- theoretically, and empirically -- that a grammar's derivational entropy and the mean length of the utterances (MLU) it generates are fundamentally linked, giving rise to a new measure, the derivational entropy rate. The mean length of utterances becomes the most practical index of syntactic complexity; I demonstrate that MLU is not a mere proxy, but a fundamental measure of syntactic diversity. In combination with the new derivational entropy rate measure, it provides a theory-free assessment of grammatical complexity. The derivational entropy rate indexes the rate at which different grammatical annotation frameworks determine the grammatical complexity of treebanks. I introduce the Smoothed Induced Treebank Entropy (SITE) as a tool for estimating these measures accurately, even from very small treebanks. I conclude by discussing important implications of these results for both NLP and human language processing.
- Abstract(参考訳): 言語習得、言語神経心理学、老化の研究、歴史言語学などの多くの分野において、コーパスは、個人、コミュニティ、または話者のタイプによって、ある期間に生成される文法構造の多様性を推定するために用いられる。
このような場合、木バンクは、遭遇するかもしれない構文構造の代表的なサンプルとして扱われる。
小さなコーパスに記録された構造からの潜在的な構文的多様性を一般化するには、代表サブコーパスの制限されたサイズによって精度が制限される慎重な外挿が必要となる。
この記事では、文法の導出エントロピーとそれが生成する発話(MLU)の平均長が根本的に関連していることを示し、新しい測度である導出エントロピー率をもたらす。
MLUは単なる代名詞ではなく,統語的多様性の基本的な尺度であることを示す。
新しい導出エントロピー率測定と組み合わせて、文法的複雑性の理論のない評価を提供する。
導出エントロピー率(英: derivational entropy rate)は、異なる文法的アノテーションフレームワークが木バンクの文法的複雑さを決定する速度を指標とする。
Smoothed induced Treebank Entropy (SITE) を、非常に小さな木バンクからでも、これらの指標を正確に推定するためのツールとして紹介する。
NLPと人間の言語処理の両方において、これらの結果の重要な意味を論じることによって、私は結論づける。
関連論文リスト
- Improving Unsupervised Constituency Parsing via Maximizing Semantic Information [35.63321102040579]
教師なしの選挙区は、文内のフレーズを木のような構文構成構造に整理する。
文ログ類似度(LL)を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に考慮していない。
教師なしメトリクスをトレーニングするための新しい目標:構成構造と文意味学の情報を最大化する(SemInfo)。
論文 参考訳(メタデータ) (2024-10-03T15:04:00Z) - Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis [2.2530496464901106]
スペイン語の単言語モデルと多言語BERTモデルを用いて、文脈におけるスペイン語のあいまいな名詞の意味表現を評価する。
様々な BERT ベースの LM の文脈的意味表現は、人間の判断に多少の違いがあるが、ヒトのベンチマークには及ばない。
論文 参考訳(メタデータ) (2024-06-20T18:58:11Z) - Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Linguistic Structure from a Bottleneck on Sequential Information Processing [5.850665541267672]
予測情報によって制約されたコードに自然言語のような体系性が生じることを示す。
人間の言語は、音韻学、形態学、構文学、意味論のレベルにおいて、低い予測情報を持つように構成されている。
論文 参考訳(メタデータ) (2024-05-20T15:25:18Z) - Measuring Meaning Composition in the Human Brain with Composition Scores from Large Language Models [53.840982361119565]
コンポジションスコアは、文理解中に意味合成の度合いを定量化するために設計された、新しいモデルに基づく計量である。
実験結果から, 単語の頻度, 構造処理, 単語に対する一般感性に関連する脳クラスタとの関連が示唆された。
論文 参考訳(メタデータ) (2024-03-07T08:44:42Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Equivariant Transduction through Invariant Alignment [71.45263447328374]
グループ内ハードアライメント機構を組み込んだ,新しいグループ同変アーキテクチャを提案する。
我々のネットワーク構造は、既存のグループ同変アプローチよりも強い同変特性を発達させることができる。
また、SCANタスクにおいて、従来のグループ同変ネットワークよりも経験的に優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-22T11:19:45Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。