論文の概要: PUCP-Metrix: A Comprehensive Open-Source Repository of Linguistic Metrics for Spanish
- arxiv url: http://arxiv.org/abs/2511.17402v1
- Date: Fri, 21 Nov 2025 17:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.126821
- Title: PUCP-Metrix: A Comprehensive Open-Source Repository of Linguistic Metrics for Spanish
- Title(参考訳): PUCP-Metrix: スペイン語用言語メトリクスの総合的オープンソースリポジトリ
- Authors: Javier Alonso Villegas Luis, Marco Antonio Sobrevilla Cabezudo,
- Abstract要約: PUCP-Metrixは、語彙の多様性、構文と意味の複雑さ、凝集、精神言語学、可読性にまたがる182の言語メトリクスのオープンソースリポジトリである。
自動可読性評価と機械生成テキスト検出におけるその有用性を評価し,既存のリポジトリと強力なニューラルベースラインとの競合性能を示した。
- 参考スコア(独自算出の注目度): 0.7329092363953698
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Linguistic features remain essential for interpretability and tasks involving style, structure, and readability, but existing Spanish tools offer limited coverage. We present PUCP-Metrix, an open-source repository of 182 linguistic metrics spanning lexical diversity, syntactic and semantic complexity, cohesion, psycholinguistics, and readability. PUCP-Metrix enables fine-grained, interpretable text analysis. We evaluate its usefulness on Automated Readability Assessment and Machine-Generated Text Detection, showing competitive performance compared to an existing repository and strong neural baselines. PUCP-Metrix offers a comprehensive, extensible resource for Spanish, supporting diverse NLP applications.
- Abstract(参考訳): 言語的特徴は、解釈可能性や、スタイル、構造、可読性を含むタスクには依然として不可欠であるが、既存のスペイン語ツールは限定的なカバレッジを提供している。
PUCP-Metrixは語彙の多様性,構文的・意味的複雑性,結束,精神言語学,可読性にまたがる182の言語指標のオープンソースリポジトリである。
PUCP-Metrixは細粒度で解釈可能なテキスト解析を可能にする。
自動可読性評価と機械生成テキスト検出におけるその有用性を評価し,既存のリポジトリと強力なニューラルベースラインとの競合性能を示した。
PUCP-Metrixはスペイン語の包括的な拡張可能なリソースを提供し、多様なNLPアプリケーションをサポートする。
関連論文リスト
- Multimodal Evaluation of Russian-language Architectures [88.00147763684451]
本稿では,ロシアの建築におけるオープンなマルチモーダル評価フレームワークであるMera Multiを紹介する。
ベンチマークはインストラクションベースで、デフォルトのテキスト、画像、オーディオ、ビデオモダリティを含んでいる。
Mera Multiは、マルチモーダルベンチマークを構築するための複製可能な方法論を提供する。
論文 参考訳(メタデータ) (2025-11-19T15:43:53Z) - A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics [2.943391000885789]
本稿では,新聞記事からバイリンガル並列コーパスを抽出する,スケーラブルで完全に自動化された手法を提案する。
2つの異なる言語の組み合わせに対して並列データコーパスを構築することでアプローチを検証するとともに,機械翻訳の下流タスクを通じて,このデータセットの価値を実証する。
論文 参考訳(メタデータ) (2025-10-15T06:57:23Z) - Behind Closed Words: Creating and Investigating the forePLay Annotated Dataset for Polish Erotic Discourse [0.0]
本稿では,エロティックなコンテンツ検出のためのポーランド語データセットであるforePLayを紹介する。
このデータセットは、曖昧さ、暴力、社会的受容不能な次元を含む多次元分類を含む24k以上の注釈付き文を特徴としている。
論文 参考訳(メタデータ) (2024-12-23T12:58:18Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language
for Readability Assessment [0.0]
MultiAzterTestは、125以上の凝集度、言語、可読性のテキストを分析する、オープンソースのNLPツールである。
MultiAzterTestは、言語横断的な機能を使用して、より複雑なものと単純なものとの競争結果も得る。
論文 参考訳(メタデータ) (2021-09-10T13:34:52Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。