論文の概要: NILC-Metrix: assessing the complexity of written and spoken language in
Brazilian Portuguese
- arxiv url: http://arxiv.org/abs/2201.03445v1
- Date: Fri, 17 Dec 2021 16:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-16 18:32:02.171916
- Title: NILC-Metrix: assessing the complexity of written and spoken language in
Brazilian Portuguese
- Title(参考訳): NILC-Metrix:ブラジルポルトガル語における文字・音声言語の複雑さの評価
- Authors: Sidney Evaldo Leal and Magali Sanches Duran and Carolina Evaristo
Scarton and Nathan Siegle Hartmann and Sandra Maria Alu\'isio
- Abstract要約: 本稿では、談話研究において提案される200のメトリクスからなる計算システムであるNILC-Metrixを提示し、公開する。
NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。
- 参考スコア(独自算出の注目度): 0.32622301272834514
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents and makes publicly available the NILC-Metrix, a
computational system comprising 200 metrics proposed in studies on discourse,
psycholinguistics, cognitive and computational linguistics, to assess textual
complexity in Brazilian Portuguese (BP). These metrics are relevant for
descriptive analysis and the creation of computational models and can be used
to extract information from various linguistic levels of written and spoken
language. The metrics in NILC-Metrix were developed during the last 13 years,
starting in 2008 with Coh-Metrix-Port, a tool developed within the scope of the
PorSimples project. Coh-Metrix-Port adapted some metrics to BP from the
Coh-Metrix tool that computes metrics related to cohesion and coherence of
texts in English. After the end of PorSimples in 2010, new metrics were added
to the initial 48 metrics of Coh-Metrix-Port. Given the large number of
metrics, we present them following an organisation similar to the metrics of
Coh-Metrix v3.0 to facilitate comparisons made with metrics in Portuguese and
English. In this paper, we illustrate the potential of NILC-Metrix by
presenting three applications: (i) a descriptive analysis of the differences
between children's film subtitles and texts written for Elementary School I and
II (Final Years); (ii) a new predictor of textual complexity for the corpus of
original and simplified texts of the PorSimples project; (iii) a complexity
prediction model for school grades, using transcripts of children's story
narratives told by teenagers. For each application, we evaluate which groups of
metrics are more discriminative, showing their contribution for each task.
- Abstract(参考訳): 本稿では,ブラジルポルトガル語 (BP) における文章の複雑さを評価するために,言論, 心理言語学, 認知言語学, 計算言語学の研究において提案される200の指標からなる計算システムNILC-Metrixを提示し, 公開する。
これらのメトリクスは、記述的分析と計算モデルの作成に関係しており、様々な言語レベルから言語レベルから情報を取り出すのに使用できる。
NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。
Coh-Metrix-Portは、英語のテキストの凝集とコヒーレンスに関連するメトリクスを計算するCoh-MetrixツールからBPにいくつかのメトリクスを適用した。
2010年のporsimplesの終了後、coh-metrix-portの最初の48のメトリクスに新しいメトリクスが追加された。
coh-metrix v3.0のメトリクスに似た組織に従って、ポルトガル語と英語のメトリクスとの比較を容易にする。
本稿では,NILC-Metrixの3つの応用例を示す。
(i)小学校1年及び2年(第2四半期)に書かれた児童映画の字幕とテキストの相違に関する記述的分析
(ii)porsimplesプロジェクトの原文及び簡易テキストコーパスにおけるテキスト複雑さの新しい予測因子
(iii)十代の子どもの物語の書き起こしを用いて、学年における複雑性予測モデル。
それぞれのアプリケーションについて、どのメトリクス群がより識別的であるかを評価し、それぞれのタスクへの貢献を示す。
関連論文リスト
- Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - StyloMetrix: An Open-Source Multilingual Tool for Representing
Stylometric Vectors [0.0]
この作業は、StyloMetrixと呼ばれるオープンソースの多言語ツールの概要を提供することを目的としている。
文法、文法、語彙の様々な側面をカバーするスタイルのテキスト表現を提供する。
StyloMetrixは、ポーランド語を主要言語として、英語、ウクライナ語、ロシア語の4つの言語をカバーしている。
論文 参考訳(メタデータ) (2023-09-22T11:53:47Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian
Language [0.0]
StyloMetrixは、英語、スペイン語、ドイツ語などの文法、スタイリスティック、構文パターンを分析するツールである。
我々は、StyloMetrixパイプラインを説明し、テキスト分類タスクのためにこのツールでいくつかの実験を行う。
また、パッケージの主な制限とメトリクスの評価手順についても述べる。
論文 参考訳(メタデータ) (2023-05-22T22:52:47Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。