論文の概要: Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language
- arxiv url: http://arxiv.org/abs/2602.18964v1
- Date: Sat, 21 Feb 2026 22:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.421584
- Title: Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language
- Title(参考訳): Yor-Sarc:低資源アフリカの言語におけるSarcasm検出のための金標準データセット
- Authors: Toheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov,
- Abstract要約: ニジェール・コンゴ語(英語版)は50万ドル以上の人々が話す音素言語である。
データセットは、さまざまな方言の背景から3つのネイティブスピーカーによって注釈付けされた436のインスタンスで構成されている。
- 参考スコア(独自算出の注目度): 0.30586855806896035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present \textbf{Yor-Sarc}, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over $50$ million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' $κ= 0.7660$; pairwise Cohen's $κ= 0.6732$--$0.8743$), with $83.3\%$ unanimous consensus. One annotator pair achieved almost perfect agreement ($κ= 0.8743$; $93.8\%$ raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining $16.7\%$ majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarc\footnote{https://github.com/toheebadura/yor-sarc} is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.
- Abstract(参考訳): サーカスム検出は、リテラルと意図された意味の相違を解決するためにモデルを必要とする、計算意味論における根本的な課題である。
この課題は、アノテーション付きデータセットが不足している、あるいは存在しない低リソース言語で増幅される。
我々は,ニジェール・コンゴ語(英語版)の音節検出のための最初のゴールドスタンダードデータセットである「textbf{Yor-Sarc}」を,50万ドル以上の人々が話していた。
このデータセットは、ヨルバ・サルカズムのために特別に設計されたアノテーションプロトコルを使用して、様々な方言の背景から3人のネイティブ話者によって注釈付けされた436のインスタンスで構成されている。
このプロトコルには、文脈に敏感な解釈とコミュニティインフォームドガイドラインが含まれており、他のアフリカの言語での複製をサポートするためのアノテーション間合意の包括的な分析が伴っている。
Fleiss' $κ= 0.7660$; pairwise Cohen's $κ= 0.6732$--$0.8743$)と8,3.3\%の一致が得られた。
1つのアノテータ対は、ほぼ完全な合意(κ= 0.8743$; 9,3.8\%$ raw agreement)を達成した。
残りの16.7 %$マジョリティ・アグリメント・ケースは、不確実性を認識したモデリングのためのソフト・ラベルとして保存されている。
Yor-Sarc\footnote{https://github.com/toheebadura/yor-sarc} は、低リソースアフリカ言語における意味解釈と文化的情報NLPの研究を促進することが期待されている。
関連論文リスト
- Leveraging Large Language Models for Sarcastic Speech Annotation in Sarcasm Detection [16.35106164874197]
サルカズムは基本的にトーンと文脈を通して意味を変化させるが、音声でそれを検出することはデータ不足による課題である。
本稿では,大規模言語モデル(LLM)を利用してサルカズムデータセットを生成するアノテーションパイプラインを提案する。
本研究では,アノテーションの品質と検出性能を比較して,提案手法の有効性を検証した。
最後に,このパイプラインを通じて作成した大規模サーカシック音声データセットであるPodSarcを紹介する。
論文 参考訳(メタデータ) (2025-06-01T11:00:18Z) - SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages [44.85501254683431]
質問回答データセットは、コレクションと手動アノテーションのコストと難しさのため、英語以外の言語では不十分である。
低リソース言語向けQAデータセットの生成と検証を行う方法である$textbfS$yn$textbfDAR$inを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:49:28Z) - Semi-Supervised Spoken Language Glossification [101.31035869691462]
Spoken Language glossification (SLG) は、音声言語のテキストを手話のグロスに変換することを目的としている。
我々はSLGに$S$emi-$S$upervised$S$poken$L$anguage$G$lossification$S3$LGというフレームワークを提示する。
論文 参考訳(メタデータ) (2024-06-12T13:05:27Z) - Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。