論文の概要: Benchmarking Sociolinguistic Diversity in Swahili NLP: A Taxonomy-Guided Approach
- arxiv url: http://arxiv.org/abs/2508.14051v1
- Date: Wed, 06 Aug 2025 20:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.524216
- Title: Benchmarking Sociolinguistic Diversity in Swahili NLP: A Taxonomy-Guided Approach
- Title(参考訳): Swahili NLPにおける社会言語学的多様性のベンチマーク:分類指導的アプローチ
- Authors: Kezia Oketch, John P. Lalor, Ahmed Abbasi,
- Abstract要約: スワヒリNLPの分類誘導評価について紹介する。
我々はケニアの話者から2,170のフリーテキスト応答のデータセットを収集する。
このデータは、部族の影響、都会の言葉、コードミキシング、借用語などを示している。
- 参考スコア(独自算出の注目度): 3.24692739098077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first taxonomy-guided evaluation of Swahili NLP, addressing gaps in sociolinguistic diversity. Drawing on health-related psychometric tasks, we collect a dataset of 2,170 free-text responses from Kenyan speakers. The data exhibits tribal influences, urban vernacular, code-mixing, and loanwords. We develop a structured taxonomy and use it as a lens for examining model prediction errors across pre-trained and instruction-tuned language models. Our findings advance culturally grounded evaluation frameworks and highlight the role of sociolinguistic variation in shaping model performance.
- Abstract(参考訳): スワヒリNLPの分類誘導評価を初めて導入し,社会言語学的多様性のギャップに対処した。
健康関連心理測定タスクに基づいて、ケニアの話者から2,170のフリーテキスト応答のデータセットを収集する。
このデータは、部族の影響、都会の言葉、コードミキシング、借用語などを示している。
構造化された分類法を開発し、事前に訓練された言語モデルと訓練された言語モデル間のモデル予測誤差を調べるためのレンズとして利用する。
本研究は, 文化的基盤評価の枠組みを前進させ, 形状モデル性能における社会言語学的変化の役割を強調した。
関連論文リスト
- Improving Multilingual Social Media Insights: Aspect-based Comment Analysis [15.356045127389436]
本稿では、個々のコメントからアスペクト項を識別し、生成し、モデル注意を導くための粒度のレベルを提案する。
我々は、コメントアスペクト項生成(CAT-G)のための教師付き微調整による多言語大言語モデルを活用する。
本稿では,英語,中国語,マレー語,インドネシア語を対象とした多言語CAT-Gテストセットについて紹介する。
論文 参考訳(メタデータ) (2025-05-29T03:24:39Z) - Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark [63.97125827026949]
本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。
分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。
9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-13T13:37:54Z) - Leveraging Transformer-Based Models for Predicting Inflection Classes of Words in an Endangered Sami Language [1.788784870849724]
本論文では,Skolt Samiの語彙的特徴と形態的特徴を分類するために,トランスフォーマーモデルを用いた学習手法を提案する。
この研究の背後にある動機は、スコルト・サーミのような少数言語のための言語保存と再生活動を支援することである。
本モデルでは,POS分類では平均重み付きF1スコアが1.00であり,屈折分類では0.81である。
論文 参考訳(メタデータ) (2024-11-04T19:41:16Z) - Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Can a Neural Model Guide Fieldwork? A Case Study on Morphological Data Collection [3.48094693551887]
言語学のフィールドワークは、言語の文書化と保存において重要な要素である。
本稿では,言語学者をフィールドワーク中に指導し,言語学者と話者の相互作用のダイナミクスを説明する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-22T23:40:03Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。