Fugu-MT 論文翻訳(概要): Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

論文の概要: Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

arxiv url: http://arxiv.org/abs/2602.18964v1
Date: Sat, 21 Feb 2026 22:10:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.421584
Title: Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language
Title（参考訳）: Yor-Sarc:低資源アフリカの言語におけるSarcasm検出のための金標準データセット
Authors: Toheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov,
Abstract要約: ニジェール・コンゴ語(英語版)は50万ドル以上の人々が話す音素言語である。データセットは、さまざまな方言の背景から3つのネイティブスピーカーによって注釈付けされた436のインスタンスで構成されている。
参考スコア（独自算出の注目度）: 0.30586855806896035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sarcasm detection poses a fundamental challenge in computational semantics, requiring models to resolve disparities between literal and intended meaning. The challenge is amplified in low-resource languages where annotated datasets are scarce or nonexistent. We present \textbf{Yor-Sarc}, the first gold-standard dataset for sarcasm detection in Yorùbá, a tonal Niger-Congo language spoken by over $50$ million people. The dataset comprises 436 instances annotated by three native speakers from diverse dialectal backgrounds using an annotation protocol specifically designed for Yorùbá sarcasm by taking culture into account. This protocol incorporates context-sensitive interpretation and community-informed guidelines and is accompanied by a comprehensive analysis of inter-annotator agreement to support replication in other African languages. Substantial to almost perfect agreement was achieved (Fleiss' $κ= 0.7660$; pairwise Cohen's $κ= 0.6732$--$0.8743$), with $83.3\%$ unanimous consensus. One annotator pair achieved almost perfect agreement ($κ= 0.8743$; $93.8\%$ raw agreement), exceeding a number of reported benchmarks for English sarcasm research works. The remaining $16.7\%$ majority-agreement cases are preserved as soft labels for uncertainty-aware modelling. Yor-Sarc\footnote{https://github.com/toheebadura/yor-sarc} is expected to facilitate research on semantic interpretation and culturally informed NLP for low-resource African languages.
Abstract（参考訳）: サーカスム検出は、リテラルと意図された意味の相違を解決するためにモデルを必要とする、計算意味論における根本的な課題である。この課題は、アノテーション付きデータセットが不足している、あるいは存在しない低リソース言語で増幅される。我々は,ニジェール・コンゴ語(英語版)の音節検出のための最初のゴールドスタンダードデータセットである「textbf{Yor-Sarc}」を,50万ドル以上の人々が話していた。このデータセットは、ヨルバ・サルカズムのために特別に設計されたアノテーションプロトコルを使用して、様々な方言の背景から3人のネイティブ話者によって注釈付けされた436のインスタンスで構成されている。このプロトコルには、文脈に敏感な解釈とコミュニティインフォームドガイドラインが含まれており、他のアフリカの言語での複製をサポートするためのアノテーション間合意の包括的な分析が伴っている。 Fleiss' $κ= 0.7660$; pairwise Cohen's $κ= 0.6732$--$0.8743$)と8,3.3\%の一致が得られた。 1つのアノテータ対は、ほぼ完全な合意(κ= 0.8743$; 9,3.8\%$ raw agreement)を達成した。残りの16.7 %$マジョリティ・アグリメント・ケースは、不確実性を認識したモデリングのためのソフト・ラベルとして保存されている。 Yor-Sarc\footnote{https://github.com/toheebadura/yor-sarc} は、低リソースアフリカ言語における意味解釈と文化的情報NLPの研究を促進することが期待されている。

関連論文リスト

MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification [0.10874100424278171]
最初に公開されたBangla-Englishコード混成コーパスであるMixSarcを紹介した。データセットには、ユーモア、皮肉、不快感、華やかさをラベル付けした9,087の注釈付き文が含まれている。その結果、ユーモア検出では高い性能を示したが、クラス不均衡と実用的複雑性により、皮肉、悪感、および下品性は著しく低下した。
論文参考訳（メタデータ） (2026-02-25T06:12:06Z)
HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳（メタデータ） (2025-08-03T15:53:01Z)
Leveraging Large Language Models for Sarcastic Speech Annotation in Sarcasm Detection [16.35106164874197]
サルカズムは基本的にトーンと文脈を通して意味を変化させるが、音声でそれを検出することはデータ不足による課題である。本稿では,大規模言語モデル(LLM)を利用してサルカズムデータセットを生成するアノテーションパイプラインを提案する。本研究では,アノテーションの品質と検出性能を比較して,提案手法の有効性を検証した。最後に,このパイプラインを通じて作成した大規模サーカシック音声データセットであるPodSarcを紹介する。
論文参考訳（メタデータ） (2025-06-01T11:00:18Z)
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages [44.85501254683431]
質問回答データセットは、コレクションと手動アノテーションのコストと難しさのため、英語以外の言語では不十分である。低リソース言語向けQAデータセットの生成と検証を行う方法である$textbfS$yn$textbfDAR$inを提案する。
論文参考訳（メタデータ） (2024-06-20T15:49:28Z)
Semi-Supervised Spoken Language Glossification [101.31035869691462]
Spoken Language glossification (SLG) は、音声言語のテキストを手話のグロスに変換することを目的としている。我々はSLGに$S$emi-$S$upervised$S$poken$L$anguage$G$lossification$S3$LGというフレームワークを提示する。
論文参考訳（メタデータ） (2024-06-12T13:05:27Z)
Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文参考訳（メタデータ） (2024-02-21T07:05:51Z)
An Evaluation of State-of-the-Art Large Language Models for Sarcasm Detection [0.0]
サルカズム(英: Sarcasm)とは、彼が言いたいことの逆を意味する人による言葉の使用である。 NLPの最近の革新により、サルカズムを検出する可能性がさらに高まった。
論文参考訳（メタデータ） (2023-10-07T14:45:43Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文参考訳（メタデータ） (2023-04-27T17:57:58Z)
Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文参考訳（メタデータ） (2020-11-02T10:57:53Z)
$R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文参考訳（メタデータ） (2020-04-28T02:30:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。