Fugu-MT 論文翻訳(概要): SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages

論文の概要: SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages

arxiv url: http://arxiv.org/abs/2402.08638v3
Date: Thu, 15 Feb 2024 16:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 12:01:21.895007
Title: SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages
Title（参考訳）: SemRel2024: 14言語用セマンティックテキスト関連データセットのコレクション
Authors: Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Abinew Ali Ayele, Pavan Baswani, Meriem Beloucif, Chris Biemann, Sofia Bourhim, Christine De Kock, Genet Shanko Dekebo, Oumaima Hourrane, Gopichand Kanumolu, Lokesh Madasu, Samuel Rutunda, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Hailegnaw Getaneh Tilaye, Krishnapriya Vishnubhotla, Genta Winata, Seid Muhie Yimam, Saif M. Mohammad
Abstract要約: SemRelは14言語にわたるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
参考スコア（独自算出の注目度）: 44.44716534457111
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exploring and quantifying semantic relatedness is central to representing language. It holds significant implications across various NLP tasks, including offering insights into the capabilities and performance of Large Language Models (LLMs). While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present SemRel, a new semantic relatedness dataset collection annotated by native speakers across 14 languages:Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, related challenges when building the datasets, and their impact and utility in NLP. We further report experiments for each language and across the different languages.
Abstract（参考訳）: 意味的関連性の探索と定量化は言語表現の中心である。 LLM(Large Language Models)の機能とパフォーマンスに関する洞察を提供するなど、さまざまなNLPタスクにまたがる重要な意味を持っている。初期のNLP研究は主に意味的類似性(しばしば英語の文脈内で)に焦点を当てていたが、代わりに意味的関連性のより広範な現象を調査した。本稿では,14ヶ国語(アフリカーンス語,アルジェリア語,アムハラ語,英語,ハウサ語,ヒンディー語,インドネシア語,キニアルワンダ語,マラティ語,モロッコ語,現代標準アラビア語,パンジャビ語,スペイン語,テルグ語)の母語話者による新しい意味関連性データセットであるsemrelを提案する。これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。スコアは比較アノテーションフレームワークを用いて得られる。データ収集とアノテーションプロセス、データセット構築時の課題、NLPにおけるそれらの影響と有用性について説明する。さらに、各言語および異なる言語に対する実験を報告します。

関連論文リスト

L3Cube-IndicHeadline-ID: A Dataset for Headline Identification and Semantic Evaluation in Low-Resource Indian Languages [2.584263027095689]
L3Cube-IndicHeadline-IDは、10の低リソースIndic言語にまたがるキュレートデータセットである。各言語には2万のニュース記事と4つの見出しの変種が含まれている。このタスクは、記事と見出しの類似性を使ってオプションから正しい見出しを選択する必要がある。我々は、コサイン類似性を用いて、多言語モデルや言語特化モデルを含む複数の文変換器をベンチマークする。
論文参考訳（メタデータ） (2025-09-02T16:54:30Z)
IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian [11.564887118533766]
IndoPrefは、最初の完全な人間によるマルチドメインインドネシアの嗜好データセットである。すべてのアノテーションはインドネシア語で書かれており、クリッペンドルフのαを用いて評価されており、強い注釈間の合意を示している。
論文参考訳（メタデータ） (2025-07-29T18:46:25Z)
ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships [0.0]
自然言語推論(NLI)は、自然言語処理(NLP)分野において重要な分野である。本稿ではNLI, ESNLIR, 特に因果関係を考慮したマルチジャンルのスペイン語データセットを作成することに焦点を当てる。この結果は、ジャンルの豊かさが、モデルを一般化する能力の豊かさに本質的に寄与していることを示している。
論文参考訳（メタデータ） (2025-03-11T18:32:16Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳（メタデータ） (2024-07-21T12:14:45Z)
SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages [39.770050337720676]
意味的テクスト関連性(STR)に関する最初の共有課題を提示する。 14言語にまたがる意味的関連性の広範な現象について検討する。これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
論文参考訳（メタデータ） (2024-03-27T18:30:26Z)
IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文参考訳（メタデータ） (2024-03-12T18:14:48Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。 40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文参考訳（メタデータ） (2023-08-17T16:02:29Z)
A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type Identification in Sanskrit [13.742271198030998]
本稿では,文脈情報を組み込んだ新しいマルチタスク学習アーキテクチャを提案する。 SaCTIのベンチマークデータセットの実験では、最先端システムと比較して6.1ポイント(精度)と7.7ポイント(F1スコア)の絶対ゲインを示している。
論文参考訳（メタデータ） (2022-08-22T13:41:51Z)
SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language [0.0]
セマンティックモデル評価データセットSimRelUzを提案する。データセットは、その形態的特徴に基づいて慎重に選択された1000組以上の単語から構成される。また,まれな単語や語彙外単語を扱うという問題にも注意を払っている。
論文参考訳（メタデータ） (2022-05-12T13:11:28Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。