論文の概要: SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction
- arxiv url: http://arxiv.org/abs/2603.15523v1
- Date: Mon, 16 Mar 2026 16:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.611073
- Title: SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction
- Title(参考訳): SlovKE:スロバキアのキーワード抽出のための大規模データセットとLLM評価
- Authors: David Števaňák, Marek Šuppa,
- Abstract要約: 形態学的に豊かな低リソース言語のためのキーフレーズ抽出は現在も検討されている。
著者指定キーフレーズを用いた227,432の科学的要約データセットを構築した。
KeyLLMは、著者によって割り当てられた標準形式に近いキーフレーズを生成する。
統計的手法では,形態的ミスマッチが主流の障害モードであることがわかった。
- 参考スコア(独自算出の注目度): 0.00954904463032233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Keyphrase extraction for morphologically rich, low-resource languages remains understudied, largely due to the scarcity of suitable evaluation datasets. We address this gap for Slovak by constructing a dataset of 227,432 scientific abstracts with author-assigned keyphrases -- scraped and systematically cleaned from the Slovak Central Register of Theses -- representing a 25-fold increase over the largest prior Slovak resource and approaching the scale of established English benchmarks such as KP20K. Using this dataset, we benchmark three unsupervised baselines (YAKE, TextRank, KeyBERT with SlovakBERT embeddings) and evaluate KeyLLM, an LLM-based extraction method using GPT-3.5-turbo. Unsupervised baselines achieve at most 11.6\% exact-match $F1@6$, with a large gap to partial matching (up to 51.5\%), reflecting the difficulty of matching inflected surface forms to author-assigned keyphrases. KeyLLM narrows this exact--partial gap, producing keyphrases closer to the canonical forms assigned by authors, while manual evaluation on 100 documents ($κ= 0.61$) confirms that KeyLLM captures relevant concepts that automated exact matching underestimates. Our analysis identifies morphological mismatch as the dominant failure mode for statistical methods -- a finding relevant to other inflected languages. The dataset (https://huggingface.co/datasets/NaiveNeuron/SlovKE) and evaluation code (https://github.com/NaiveNeuron/SlovKE) are publicly available.
- Abstract(参考訳): 形態学的にリッチで低リソースな言語に対するキーワード抽出は、主に適切な評価データセットが不足しているため、まだ検討されていない。
スロバキアにおけるこのギャップに対処するために、著者が指定したキーフレーズを含む227,432の科学的な抽象概念のデータセットを構築し、スロバキア中央歴史登録財から取り除かれ、体系的に浄化された – は、スロバキアの最大のリソースに対する25倍の増大を示し、KP20Kのような確立した英語ベンチマークの規模にアプローチすることで解決する。
このデータセットを用いて、3つの教師なしベースライン(YAKE, TextRank, KeyBERT とBERT の埋め込み)をベンチマークし、GPT-3.5-turbo を用いた LLM ベースの抽出手法である KeyLLM を評価する。
教師なしのベースラインは、最大で11.6\%の正確なマッチ(F1@6$)を達成し、部分マッチング(最大51.5\%)に大きなギャップを持つ。
KeyLLMは、この正確な部分的ギャップを狭め、著者によって割り当てられた標準形式に近いキーフレーズを生成する一方で、100のドキュメント(κ= 0.61$)のマニュアル評価では、KeyLLMは、自動化された正確なマッチングが過小評価される、関連する概念をキャプチャすることを確認した。我々の分析では、形態的ミスマッチを、統計手法における支配的な障害モードとして認識している。これは、他の屈折言語に関連する発見である。
データセット(https://huggingface.co/datasets/NaiveNeuron/SlovKE)と評価コード(https://github.com/NaiveNeuron/SlovKE)が公開されている。
関連論文リスト
- A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus [0.0]
低リソース言語における大規模意味関係データセットを生成するためのハイブリッド手法を提案する。
提案手法では, セマンティッククラスタを識別するためのFastText埋め込みとAgglomerative Clusteringを統合し, セマンティッククラスタの自動分類のためのGemini 2.5-Flash, キュレートされた辞書ソースとの統合を行う。
得られたデータセットは、843,000のトルコのセマンティックペアで構成され、最小のコストで既存のリソースの10倍のスケールアップを表現している。
論文 参考訳(メタデータ) (2026-01-19T17:38:52Z) - COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.2242530642524063]
COMI-lingUAは、ヒンディー語と英語のコード混成データセットとしては最大である。
5つのコアNLPタスクにわたる125K以上の高品質なインスタンスで構成されている。
各インスタンスには3つのバイリンガルアノテーションがアノテートされ、376K以上の専門家アノテーションが生成される。
論文 参考訳(メタデータ) (2025-03-27T16:36:39Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Visually Grounded Keyword Detection and Localisation for Low-Resource
Languages [0.0]
本研究では,音声におけるキーワードの局所化に視覚的グラウンドド音声(VGS)モデルを用いることを検討した。
イングランドのデータセットを用いて, 4つのローカライゼーション手法を提案し, 評価を行った。
ヨルバ語で話されるキャプションを含む新しいデータセットも収集され、言語間キーワードのローカライゼーションのためにリリースされた。
論文 参考訳(メタデータ) (2023-02-01T21:32:15Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Automatic Language Identification for Celtic Texts [0.0]
この研究は、ケルト語族を例に、関連する低リソース言語の識別に対処する。
アイルランド語、スコットランド語、ウェールズ語、英語のレコードを含む新しいデータセットを収集しました。
我々は、クラスタリング、オートエンコーダ、トピックモデリングメソッドの出力と並行して、従来の統計的特徴を持つSVMやニューラルネットワークなどの教師付きモデルをテストする。
論文 参考訳(メタデータ) (2022-03-09T16:04:13Z) - Clustering Word Embeddings with Self-Organizing Maps. Application on
LaRoSeDa -- A Large Romanian Sentiment Data Set [15.877673959068455]
ルーマニア語は、計算言語学の下位言語の一つである。
ルーマニアの大規模な感情データセットであるLaRoSeDaを紹介します。
k平均クラスタリングアルゴリズムを自己組織化マップに置き換える。
論文 参考訳(メタデータ) (2021-01-11T21:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。