論文の概要: L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages
- arxiv url: http://arxiv.org/abs/2509.02503v1
- Date: Tue, 02 Sep 2025 16:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.112528
- Title: L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages
- Title(参考訳): L3Cube-IndicHeadline-ID:低資源インドの言語における見出し識別と意味評価のためのデータセット
- Authors: Nishant Tanksale, Tanmay Kokate, Darshan Gohad, Sarvadnyaa Barate, Raviraj Joshi,
- Abstract要約: L3Cube-IndicHeadline-IDは、10の低リソースIndic言語にまたがるキュレートデータセットである。
各言語には2万のニュース記事と4つの見出しの変種が含まれている。
このタスクは、記事と見出しの類似性を使ってオプションから正しい見出しを選択する必要がある。
我々は、コサイン類似性を用いて、多言語モデルや言語特化モデルを含む複数の文変換器をベンチマークする。
- 参考スコア(独自算出の注目度): 2.584263027095689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic evaluation in low-resource languages remains a major challenge in NLP. While sentence transformers have shown strong performance in high-resource settings, their effectiveness in Indic languages is underexplored due to a lack of high-quality benchmarks. To bridge this gap, we introduce L3Cube-IndicHeadline-ID, a curated headline identification dataset spanning ten low-resource Indic languages: Marathi, Hindi, Tamil, Gujarati, Odia, Kannada, Malayalam, Punjabi, Telugu, Bengali and English. Each language includes 20,000 news articles paired with four headline variants: the original, a semantically similar version, a lexically similar version, and an unrelated one, designed to test fine-grained semantic understanding. The task requires selecting the correct headline from the options using article-headline similarity. We benchmark several sentence transformers, including multilingual and language-specific models, using cosine similarity. Results show that multilingual models consistently perform well, while language-specific models vary in effectiveness. Given the rising use of similarity models in Retrieval-Augmented Generation (RAG) pipelines, this dataset also serves as a valuable resource for evaluating and improving semantic understanding in such applications. Additionally, the dataset can be repurposed for multiple-choice question answering, headline classification, or other task-specific evaluations of LLMs, making it a versatile benchmark for Indic NLP. The dataset is shared publicly at https://github.com/l3cube-pune/indic-nlp
- Abstract(参考訳): 低リソース言語におけるセマンティック評価は、NLPにおいて依然として大きな課題である。
文変換器は、高リソース環境では高い性能を示してきたが、高品質なベンチマークが欠如していることから、Indic言語におけるその有効性は過小評価されている。
このギャップを埋めるために、私たちはL3Cube-IndicHeadline-IDを紹介します。これは、Malathi、Hindi、Tamil、Gujarati、Odia、Kannada、Malayalam、Punjabi、Telugu、Bengali、英語の10の低リソースIndic言語にまたがる、見出し識別データセットです。
各言語は、オリジナル、セマンティックに類似したバージョン、語彙的に類似したバージョン、そして細かなセマンティック理解をテストするために設計された無関係な4つの見出しの変種と組み合わせた2万のニュース記事を含んでいる。
このタスクは、記事と見出しの類似性を使ってオプションから正しい見出しを選択する必要がある。
我々は、コサイン類似性を用いて、多言語モデルや言語特化モデルを含む複数の文変換器をベンチマークする。
結果から,多言語モデルは一貫して良好に機能し,言語固有のモデルは有効性が異なることがわかった。
Retrieval-Augmented Generation (RAG)パイプラインにおける類似性モデルの利用の増加を踏まえると、このデータセットは、これらのアプリケーションにおける意味的理解を評価し改善するための貴重なリソースとしても機能する。
さらに、データセットは多重選択質問応答、見出し分類、その他のLCMのタスク固有の評価のために再利用することができ、Indic NLPの汎用ベンチマークとなる。
データセットはhttps://github.com/l3cube-pune/indic-nlpで公開されています。
関連論文リスト
- MahaParaphrase: A Marathi Paraphrase Detection Corpus and BERT-based Models [6.841396630034347]
インデックス言語は、その豊富な形態的および構文的バリエーション、多様なスクリプト、注釈付きデータの限られた可用性のために、自然言語処理において複雑である。
本研究では,Malathiのための高品質なパラフレーズコーパスであるL3Cube-MahaParaphraseデータセットについて述べる。
また、これらのデータセット上で、標準変換器ベースBERTモデルの結果を示す。
論文 参考訳(メタデータ) (2025-08-24T16:48:58Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。