論文の概要: KurdSTS: The Kurdish Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2510.02336v1
- Date: Fri, 26 Sep 2025 14:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.010613
- Title: KurdSTS: The Kurdish Semantic Textual Similarity
- Title(参考訳): KurdSTS:クルド人のセマンティックテキストの類似性
- Authors: Abdulhady Abas Abdullah, Hadi Veisi, Hussein M. Al,
- Abstract要約: 形式と非公式のレジスタにまたがる1万の文対。
我々は、Sentence-BERT、Multilingual BERT、その他の強力なベースラインをベンチマークし、クルド人の形態、正書法の変化、コードミキシングに起因する課題を強調しながら、競争結果を得る。
データセットとベースラインは再現可能な評価スイートを確立し、クルド人のセマンティクスと低リソースNLPに関する将来の研究の出発点となる。
- 参考スコア(独自算出の注目度): 0.979204203262436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic Textual Similarity (STS) measures the degree of meaning overlap between two texts and underpins many NLP tasks. While extensive resources exist for high-resource languages, low-resource languages such as Kurdish remain underserved. We present, to our knowledge, the first Kurdish STS dataset: 10,000 sentence pairs spanning formal and informal registers, each annotated for similarity. We benchmark Sentence-BERT, multilingual BERT, and other strong baselines, obtaining competitive results while highlighting challenges arising from Kurdish morphology, orthographic variation, and code-mixing. The dataset and baselines establish a reproducible evaluation suite and provide a strong starting point for future research on Kurdish semantics and low-resource NLP.
- Abstract(参考訳): Semantic Textual similarity (STS) は、2つのテキスト間で重なり合う意味の度合いを測定し、多くのNLPタスクの基盤となる。
高リソース言語には広範なリソースが存在するが、クルド語のような低リソース言語はいまだに保存されていない。
我々は、我々の知る限り、最初のクルド人のSTSデータセットを提示する: 形式と非公式のレジスタにまたがる1万の文対。
我々は、Sentence-BERT、Multilingual BERT、その他の強力なベースラインをベンチマークし、クルド人の形態、正書法の変化、コードミキシングに起因する課題を強調しながら、競争結果を得る。
データセットとベースラインは再現可能な評価スイートを確立し、クルド人のセマンティクスと低リソースNLPに関する将来の研究の出発点となる。
関連論文リスト
- KuBERT: Central Kurdish BERT Model and Its Application for Sentiment Analysis [0.979204203262436]
本稿では,変換器からの双方向表現(BERT)を自然言語処理技術に統合することにより,中央クルド語に対する感情分析の研究を強化する。
論文 参考訳(メタデータ) (2025-09-20T20:44:29Z) - Non-Contextual BERT or FastText? A Comparative Analysis [0.4194295877935868]
我々は、ニュース分類、感情分析、ヘイトスピーチ検出などのタスクにおけるBERTモデルとFastTextモデルからの非コンテキスト埋め込みの有効性を分析する。
以上の結果から,本モデルの最初の埋め込み層から抽出した非コンテキストBERT埋め込みは,FastText埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T18:25:57Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。
トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。
言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文 参考訳(メタデータ) (2022-03-02T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。