論文の概要: Temporal Simultaneity Predicts Annotation Quality in Sentiment Corpora
- arxiv url: http://arxiv.org/abs/2605.27239v1
- Date: Tue, 26 May 2026 16:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.409174
- Title: Temporal Simultaneity Predicts Annotation Quality in Sentiment Corpora
- Title(参考訳): 感性コーパスのアノテーション品質を予測した時間的同時性
- Authors: Idris Abdulmumin, Mokgadi Penelope Matloga, Tadesse Destaw Belay, Botshelo Kondowe, Letlhogonolo Mohleleng, Hareaipha Nkopo Letsoalo, Shamsuddeen Hassan Muhammad, Vukosi Marivate,
- Abstract要約: 我々は,8バッチにわたる3つのネイティブスピーカーアノテータによって注釈付けされた3,565ツイートのセツワナ感情データセットを提示する。
ランドルフのフリーマージナル Kappa の総和が 0.76$ であるにもかかわらず、バッチ毎の "excellent" $ はアノテーションタスク全体で 32 ポイント以上減少する。
- 参考スコア(独自算出の注目度): 4.809089661731234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotation quality is difficult to sustain when campaigns span weeks or months with small annotator pools. We present a Setswana sentiment dataset of 3,565 tweets annotated by three native-speaker annotators across eight batches and examine why inter-annotator agreement (IAA) declines over time. Despite an aggregate Randolph's free-marginal Kappa of $κ= 0.76$, "excellent," per-batch $κ$ falls by more than 32 points across the annotation task. Through six targeted analyses, we find that (i) label confusion concentrates on the negative/neutral boundary, (ii) two annotators show run-length drift consistent with autopilot labeling, and (iii) the dominant predictor of $κ$ is temporal simultaneity: tweets labeled within one minute achieve $κ= 0.98$, while those labeled more than a day apart reach only $κ= 0.65$. Annotation speed and tweet-level linguistic features show no meaningful association with $κ$. We benchmark three open multilingual encoders and proprietary models (GPT-5 and Gemini) on three-class sentiment classification; fine-tuning yields gains of 29 to 43 macro-F1 points over pretrained baselines, with GPT-5 few-shot leading overall (62.2 macro-F1). We release the dataset, per-annotation timestamps, and analysis code to support reproducible quality auditing for future African language NLP resources.
- Abstract(参考訳): アノテーションの品質は、小さなアノテータプールを持つキャンペーンが数週間から数ヶ月にわたって行われる場合、維持することは困難である。
本研究では,8バッチにわたる3つのネイティブ話者アノテータによって注釈付けされた3,565ツイートのセツワナ感情データセットを提示し,アノテータ間合意(IAA)が時間とともに減少する理由を検討する。
ランドルフのフリーマージナル Kappa の総和が$κ= 0.76$, "excellent" であるにもかかわらず、バッチ毎の$κ$ はアノテーションタスク全体で 32 ポイント以上減少する。
6つの対象分析を通して、我々はそれを発見した。
(i)ラベルの混乱は負・中性境界に集中する。
(ii)2つのアノテータはオートパイロットラベリングと一致したラン長ドリフトを示し、
(iii)$κ$は時間的同時性であり、1分以内にラベル付けされたツイートは$κ=0.98$となり、1日以内のラベル付けされたツイートは$κ=0.65$となる。
アノテーションのスピードとツイートレベルの言語機能は、$κ$と意味のある関係がないことを示している。
我々は3つのオープンな多言語エンコーダとプロプライエタリモデル(GPT-5とGemini)を3階層の感情分類でベンチマークした。
我々は、将来のアフリカ言語NLPリソースの再現可能な品質監査をサポートするために、データセット、アノテーションごとのタイムスタンプ、分析コードをリリースする。
関連論文リスト
- Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - What Do EEG Foundation Models Capture from Human Brain Signals? [64.48249643001402]
現代の脳波基礎モデルは、自己教師付き事前訓練を通じて生信号から直接学習する。
我々は3つのサブクエストに分解する: モデルが何を学習するか、モデルを何に使用するのか、そしてどのように説明できるのか。
3つの基礎モデル(CSBrain, CBraMod, LaBraM),5つの臨床タスク(MDD, Stress, ISRUC-Sleep, TUSL, Siena)と6ファミリー63機能レキシコンを含む。
論文 参考訳(メタデータ) (2026-05-12T01:57:53Z) - Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。
本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - Coupled Query-Key Dynamics for Attention [6.775853253396773]
スコア付けする前に、共有された学習力学を通して進化するクエリとキーを瞬時に示す。
60MパラメータのWikiText-103では、結合力学は22.55--22.62パープレキシティ(英語版)と24.22のパープレキシティ(英語版)を達成する。
論文 参考訳(メタデータ) (2026-04-02T06:37:05Z) - Pixels or Positions? Benchmarking Modalities in Group Activity Recognition [62.18221200080195]
グループアクティビティ認識(GAR)は、監視および屋内チームスポーツのためのビデオモダリティについてよく研究されている。
エージェントの位置や軌道のような他のモダリティ、すなわち追跡は、比較的未探索のままである。
同じグループのアクティビティのために、放送されたビデオと追跡データを整列する標準化されたベンチマークは存在しない。
論文 参考訳(メタデータ) (2025-11-16T14:04:12Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Phonology-Guided Speech-to-Speech Translation for African Languages [2.7624021966289605]
音声合成のための韻律誘導フレームワーク(S2ST)を提案する。
Emphwithin-phylum言語対は30-40%低停止,3$times$以上のオンセット/オフセット相関を示した。
また、人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースしています。
論文 参考訳(メタデータ) (2024-10-30T09:44:52Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Beyond Invariance: Test-Time Label-Shift Adaptation for Distributions
with "Spurious" Correlations [44.99833362998488]
テスト時のデータ分散の変化は、予測モデルのパフォーマンスに有害な影響を及ぼす可能性がある。
本研究では,未ラベルサンプルに適用したEMを用いて,共同分布の$p(y, z)$の変化に適応するテストタイムラベルシフト補正を提案する。
論文 参考訳(メタデータ) (2022-11-28T18:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。