論文の概要: Measuring Lexical Diversity in Texts: The Twofold Length Problem
- arxiv url: http://arxiv.org/abs/2307.04626v1
- Date: Mon, 10 Jul 2023 15:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:44:34.147059
- Title: Measuring Lexical Diversity in Texts: The Twofold Length Problem
- Title(参考訳): テキストの語彙多様性の測定:2倍長問題
- Authors: Yves Bestgen
- Abstract要約: 語彙の多様性の推定に対するテキストの長さの影響は、1世紀以上にわたって科学界の注目を集めてきた。
多くの指標が提案され、評価するために多くの研究がなされているが、問題は残る。
本手法は,言語学習研究において最もよく用いられる指標だけでなく,長さ問題自体についても批判的分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The impact of text length on the estimation of lexical diversity has captured
the attention of the scientific community for more than a century. Numerous
indices have been proposed, and many studies have been conducted to evaluate
them, but the problem remains. This methodological review provides a critical
analysis not only of the most commonly used indices in language learning
studies, but also of the length problem itself, as well as of the methodology
for evaluating the proposed solutions. The analysis of three datasets of
English language-learners' texts revealed that indices that reduce all texts to
the same length using a probabilistic or an algorithmic approach solve the
length dependency problem; however, all these indices failed to address the
second problem, which is their sensitivity to the parameter that determines the
length to which the texts are reduced. The paper concludes with recommendations
for optimizing lexical diversity analysis.
- Abstract(参考訳): 語彙多様性の推定に対するテキストの長さの影響は、1世紀以上にわたって科学界の注目を集めてきた。
多くの指標が提案され、評価するために多くの研究がなされているが、問題は残る。
この方法論的レビューは、言語学習研究において最も一般的に用いられる指標だけでなく、長さ問題自体の批判的分析と、提案する解を評価する方法論を提供する。
英語学習者のテキストの3つのデータセットの分析により、確率的あるいはアルゴリズム的アプローチを用いてすべてのテキストを同じ長さに減らすインデックスは、長さ依存性の問題を解くが、これらのインデックスはすべて2番目の問題に対処できず、テキストの長さを決定するパラメータに対する感度が低下した。
本稿では,語彙多様性分析の最適化を推奨する。
関連論文リスト
- LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - From Lengthy to Lucid: A Systematic Literature Review on NLP Techniques
for Taming Long Sentences [3.4961473050660303]
長い文は長年にわたって、文書によるコミュニケーションにおいて永続的な問題であった。
本調査は,長文問題に対処するための2つの主要な戦略を体系的にレビューする。
我々は最も代表的な手法を包括的分類に分類し分類する。
論文 参考訳(メタデータ) (2023-12-08T16:51:29Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation [1.290382979353427]
コード切替型感情分析のための多段階自然言語処理アルゴリズムを提案する。
提案アルゴリズムは、人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
論文 参考訳(メタデータ) (2022-10-29T01:52:25Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Extractive approach for text summarisation using graphs [0.0]
本稿では,抽出手法を用いてテキスト要約問題の解法に用いるグラフ関連アルゴリズムについて検討する。
文章の重なり合いと、文章の類似度を測定するための編集距離の2つの指標を考察する。
論文 参考訳(メタデータ) (2021-06-21T10:03:34Z) - Deep learning for sentence clustering in essay grading support [1.7259867886009057]
フィンランド語における大学生エッセイの2つのデータセットを紹介し,文レベルの有意な議論に対して手作業で注釈を付ける。
我々は,エッセイグレーディングを支援するために,文クラスタリングに適した深層学習埋め込み手法をいくつか評価した。
論文 参考訳(メタデータ) (2021-04-23T12:32:51Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。