論文の概要: Beyond Majority Voting: Agreement-Based Clustering to Model Annotator Perspectives in Subjective NLP Tasks
- arxiv url: http://arxiv.org/abs/2605.09955v1
- Date: Mon, 11 May 2026 04:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.509106
- Title: Beyond Majority Voting: Agreement-Based Clustering to Model Annotator Perspectives in Subjective NLP Tasks
- Title(参考訳): 多数決を超えて: 主観的NLP課題におけるアノテータの観点からの合意に基づくクラスタリング
- Authors: Tadesse Destaw Belay, Ibrahim Said Ahmad, Idris Abdulmumin, Abinew Ali Ayele, Alexander Gelbukh, Eusebio Ricárdez-Vázquez, Olga Kolesnikova, Shamsuddeen Hassan Muhammad, Seid Muhie Yimam,
- Abstract要約: アノテーションの分解は、NLPデータセットの開発において一般的な現象である。
本稿では,アノテータ間の不一致をモデル化するための合意に基づくクラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 39.645768996277184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disagreement in annotation is a common phenomenon in the development of NLP datasets and serves as a valuable source of insight. While majority voting remains the dominant strategy for aggregating labels, recent work has explored modeling individual annotators to preserve their perspectives. However, modeling each annotator is resource-intensive and remains underexplored across various NLP tasks. We propose an agreement-based clustering technique to model the disagreement between the annotators. We conduct comprehensive experiments in 40 datasets in 18 typologically diverse languages, covering three subjective NLP tasks: sentiment analysis, emotion classification, and hate speech detection. We evaluate four aggregation approaches: majority vote, ensemble, multi-label, and multitask. The results demonstrate that agreement-based clustering can leverage the full spectrum of annotator perspectives and significantly enhance classification performance in subjective NLP tasks compared to majority voting and individual annotator modeling. Regarding the aggregation approach, the multi-label and multitask approaches are better for modeling clustered annotators than an ensemble and model majority vote.
- Abstract(参考訳): アノテーションの診断は、NLPデータセットの開発において一般的な現象であり、貴重な洞察源となっている。
過半数の投票は依然としてラベルを集約する主要な戦略であるが、最近の研究は個々のアノテータをモデリングして彼らの視点を維持している。
しかし、各アノテータのモデリングはリソース集約的であり、様々なNLPタスクで未探索のままである。
本稿では,アノテータ間の不一致をモデル化するための合意に基づくクラスタリング手法を提案する。
我々は、感情分析、感情分類、ヘイトスピーチ検出という3つの主観的NLPタスクを網羅し、18言語で40のデータセットで包括的実験を行った。
多数決,アンサンブル,マルチラベル,マルチタスクの4つのアグリゲーションアプローチを評価した。
その結果、合意に基づくクラスタリングは、アノテータの観点からの全スペクトルを活用でき、多数決や個別アノテータモデリングと比較して、主観的NLPタスクの分類性能を大幅に向上できることを示した。
集約アプローチに関して、マルチラベルとマルチタスクのアプローチは、アンサンブルやモデルの多数決よりも、クラスタ化されたアノテータをモデル化する方がよい。
関連論文リスト
- The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.6636608563034]
より小さなモデルの集合的知性を活用するシンプルなレシピであるAvengersを紹介します。
10のオープンソースモデルで、Avengersは15の多様なデータセットの平均パフォーマンスをGPT-4o、4.1、4.5を上回っている。
特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
論文 参考訳(メタデータ) (2025-05-26T10:29:42Z) - Voices in a Crowd: Searching for Clusters of Unique Perspectives [8.516397617576978]
提案されたソリューションは、アノテータの不一致をモデル化するか、あるいは共有メタデータに基づいてアノテータをグループ化することによって、少数派の視点を捉えることを目的としている。
本稿では,アノテータのメタデータを符号化せずにモデルを訓練し,アノテータの振る舞いによって通知される潜伏埋め込みを抽出し,類似した意見の集合を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:37:15Z) - Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - Annotator-Centric Active Learning for Subjective NLP Tasks [7.766754308448708]
アクティブラーニング(AL)は、最も有益なサンプルを戦略的に注釈付けすることで、人間のアノテーションを収集するコストに対処する。
本稿では,データサンプリングに続き,アノテーション選択戦略を取り入れたACAL(Annotator-Centric Active Learning)を提案する。
本研究の目的は,人間の判断の多様性を効率的に近似し,アノテータ中心の指標を用いてモデル性能を評価することである。
論文 参考訳(メタデータ) (2024-04-24T08:13:02Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。