論文の概要: PUCP-Metrix: A Comprehensive Open-Source Repository of Linguistic Metrics for Spanish
- arxiv url: http://arxiv.org/abs/2511.17402v1
- Date: Fri, 21 Nov 2025 17:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.126821
- Title: PUCP-Metrix: A Comprehensive Open-Source Repository of Linguistic Metrics for Spanish
- Title(参考訳): PUCP-Metrix: スペイン語用言語メトリクスの総合的オープンソースリポジトリ
- Authors: Javier Alonso Villegas Luis, Marco Antonio Sobrevilla Cabezudo,
- Abstract要約: PUCP-Metrixは、語彙の多様性、構文と意味の複雑さ、凝集、精神言語学、可読性にまたがる182の言語メトリクスのオープンソースリポジトリである。
自動可読性評価と機械生成テキスト検出におけるその有用性を評価し,既存のリポジトリと強力なニューラルベースラインとの競合性能を示した。
- 参考スコア(独自算出の注目度): 0.7329092363953698
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Linguistic features remain essential for interpretability and tasks involving style, structure, and readability, but existing Spanish tools offer limited coverage. We present PUCP-Metrix, an open-source repository of 182 linguistic metrics spanning lexical diversity, syntactic and semantic complexity, cohesion, psycholinguistics, and readability. PUCP-Metrix enables fine-grained, interpretable text analysis. We evaluate its usefulness on Automated Readability Assessment and Machine-Generated Text Detection, showing competitive performance compared to an existing repository and strong neural baselines. PUCP-Metrix offers a comprehensive, extensible resource for Spanish, supporting diverse NLP applications.
- Abstract(参考訳): 言語的特徴は、解釈可能性や、スタイル、構造、可読性を含むタスクには依然として不可欠であるが、既存のスペイン語ツールは限定的なカバレッジを提供している。
PUCP-Metrixは語彙の多様性,構文的・意味的複雑性,結束,精神言語学,可読性にまたがる182の言語指標のオープンソースリポジトリである。
PUCP-Metrixは細粒度で解釈可能なテキスト解析を可能にする。
自動可読性評価と機械生成テキスト検出におけるその有用性を評価し,既存のリポジトリと強力なニューラルベースラインとの競合性能を示した。
PUCP-Metrixはスペイン語の包括的な拡張可能なリソースを提供し、多様なNLPアプリケーションをサポートする。
関連論文リスト
- dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model [24.35392364602848]
dots.ocrは、統合されたエンドツーエンドフレームワーク内で3つのコアタスクを学習するビジョンランゲージモデルである。
これは、巨大な多言語コーパスを合成する高度にスケーラブルなデータエンジンによって実現されている。
統合パラダイムの有効性は,OmniDocBenchの最先端性能によって検証される。
論文 参考訳(メタデータ) (2025-12-02T07:42:38Z) - Multimodal Evaluation of Russian-language Architectures [88.00147763684451]
本稿では,ロシアの建築におけるオープンなマルチモーダル評価フレームワークであるMera Multiを紹介する。
ベンチマークはインストラクションベースで、デフォルトのテキスト、画像、オーディオ、ビデオモダリティを含んでいる。
Mera Multiは、マルチモーダルベンチマークを構築するための複製可能な方法論を提供する。
論文 参考訳(メタデータ) (2025-11-19T15:43:53Z) - A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics [2.943391000885789]
本稿では,新聞記事からバイリンガル並列コーパスを抽出する,スケーラブルで完全に自動化された手法を提案する。
2つの異なる言語の組み合わせに対して並列データコーパスを構築することでアプローチを検証するとともに,機械翻訳の下流タスクを通じて,このデータセットの価値を実証する。
論文 参考訳(メタデータ) (2025-10-15T06:57:23Z) - Parallel Corpora for Machine Translation in Low-resource Indic Languages: A Comprehensive Review [2.377892000761193]
本稿では、Indic言語で利用可能な並列コーパスについて概観する。
コーパス作成における課題として,言語的多様性,スクリプトのバリエーション,データ不足などについて批判的に検討する。
言語間変換学習の活用,多言語データセットの拡張,翻訳品質向上のためのマルチモーダルリソースの統合など,今後の方向性について概説する。
論文 参考訳(メタデータ) (2025-03-02T21:22:53Z) - Behind Closed Words: Creating and Investigating the forePLay Annotated Dataset for Polish Erotic Discourse [0.0]
本稿では,エロティックなコンテンツ検出のためのポーランド語データセットであるforePLayを紹介する。
このデータセットは、曖昧さ、暴力、社会的受容不能な次元を含む多次元分類を含む24k以上の注釈付き文を特徴としている。
論文 参考訳(メタデータ) (2024-12-23T12:58:18Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language
for Readability Assessment [0.0]
MultiAzterTestは、125以上の凝集度、言語、可読性のテキストを分析する、オープンソースのNLPツールである。
MultiAzterTestは、言語横断的な機能を使用して、より複雑なものと単純なものとの競争結果も得る。
論文 参考訳(メタデータ) (2021-09-10T13:34:52Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。