論文の概要: Who and What? Using Linguistic Features and Annotator Characteristics to Analyze Annotation Variation
- arxiv url: http://arxiv.org/abs/2605.06318v1
- Date: Thu, 07 May 2026 14:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.886288
- Title: Who and What? Using Linguistic Features and Annotator Characteristics to Analyze Annotation Variation
- Title(参考訳): 言語的特徴とアノテーション特性を用いたアノテーション変化の分析
- Authors: Maximilian Maurer, Maximilian Linde, Gabriella Lapesa,
- Abstract要約: 有害な言語検出のための4つの参照データセットの大規模解析を行った。
我々は,アノテータの特徴,項目の言語的特性,およびそれらの相互作用を統計的に情報を得た画像にまとめる。
- 参考スコア(独自算出の注目度): 11.220035519005833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human label variation has been established as a central phenomenon in NLP: the perspectives different annotators have on the same item need to be embraced. Data collection practices thus shifted towards increasing the annotator numbers and releasing disaggregated datasets, harmful language being most resourced due to its high subjectivity. While this resulted in rich information about \textit{who} annotated (sociodemographics, attitudes, etc.), the \textit{what} (e.g., linguistic properties of items), and their interplay has received little attention. We present the first large-scale analysis of four reference datasets for harmful language detection, bringing together annotator characteristics, linguistic properties of the items, and their interactions in a statistically informed picture. We find that interactions are crucial, revealing intersectional effects ignored in previous work, and that a strong role is played by lexical cues and annotator attitudes. Effect patterns, however, vary considerably across datasets. This urges caution about generalization and transferability.
- Abstract(参考訳): ヒトのラベルの変異は、NLPにおいて中心的な現象として確立されており、異なるアノテータが同じ項目に持つ視点を取り入れる必要がある。
これにより、データ収集のプラクティスは、アノテータ数の増加と、非集約データセットのリリースへと移行した。
その結果, 注釈付けされた『textit{who} 』や『textit{what} 』 (例, 項目の言語的特性) に関する豊富な情報が得られたが, その相互作用はほとんど注目されていない。
有害な言語検出のための4つの参照データセットを大規模に分析し,アノテータの特徴,項目の言語特性,およびそれらの相互作用を統計的に把握した画像にまとめる。
我々は,従来の研究で無視された交叉効果を明らかにし,語彙的手がかりやアノテータ的態度によって強い役割が果たされることを見出した。
しかし、影響パターンはデータセットによって大きく異なる。
これは一般化と伝達可能性に注意を喚起する。
関連論文リスト
- BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories [38.36264873832655]
BiasedTales-MLは8つの類型的および文化的に多様な言語で生成される約35万の児童話からなる大規模並列コーパスである。
分析の結果,ナラティブ生成パターンの言語間差異は顕著であり,英語で観察される分布が他の言語と類似した特徴を示すとは限らないことが示唆された。
これらの知見は、多言語環境下での社会的基盤の物語生成を特徴付けるための英語中心評価の限界を浮き彫りにした。
論文 参考訳(メタデータ) (2026-04-18T14:39:15Z) - Switchboard-Affect: Emotion Perception Labels from Conversational Speech [7.576840738395629]
そこで我々は,Switchboard corpus を自然言語の有望な情報源として認識する。
群集に分類的感情と次元属性のデータセットをラベル付けするように訓練する。
我々は、最先端のSERモデルを評価し、特に一般化が貧弱な感情カテゴリーの様々なパフォーマンスを見いだした。
論文 参考訳(メタデータ) (2025-10-14T21:23:04Z) - AdParaphrase: Paraphrase Dataset for Analyzing Linguistic Features toward Generating Attractive Ad Texts [34.12547921617836]
本研究では,人間の嗜好に影響を及ぼす広告文の言語的特徴について考察する。
本稿では、広告テキストのペアに対する人間の好みを含むパラフレーズデータセットであるAdParaphraseを提案する。
分析の結果,人間の判断に好まれる広告文は,より流布度が高く,長さが長く,名詞が増え,ブラケット記号が用いられることがわかった。
論文 参考訳(メタデータ) (2025-02-07T05:39:55Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。