論文の概要: Evaluating how LLM annotations represent diverse views on contentious topics
- arxiv url: http://arxiv.org/abs/2503.23243v1
- Date: Sat, 29 Mar 2025 22:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:40:02.380935
- Title: Evaluating how LLM annotations represent diverse views on contentious topics
- Title(参考訳): LLMアノテーションが論争トピックの多様なビューをどのように表現するかを評価する
- Authors: Megan A. Brown, Shubham Atreja, Libby Hemphill, Patrick Y. Wu,
- Abstract要約: 本稿では,多言語多言語モデル (LLM) が競合的なラベリングタスクに対する多様な視点を表現していることを示す。
以上の結果から, LLM を用いてデータアノテートを行う場合, 特定のグループの視点を低く表現することは, 重大な問題ではないことが示唆された。
- 参考スコア(独自算出の注目度): 3.405231040967506
- License:
- Abstract: Researchers have proposed the use of generative large language models (LLMs) to label data for both research and applied settings. This literature emphasizes the improved performance of LLMs relative to other natural language models, noting that LLMs typically outperform other models on standard metrics such as accuracy, precision, recall, and F1 score. However, previous literature has also highlighted the bias embedded in language models, particularly around contentious topics such as potentially toxic content. This bias could result in labels applied by LLMs that disproportionately align with majority groups over a more diverse set of viewpoints. In this paper, we evaluate how LLMs represent diverse viewpoints on these contentious tasks. Across four annotation tasks on four datasets, we show that LLMs do not show substantial disagreement with annotators on the basis of demographics. Instead, the model, prompt, and disagreement between human annotators on the labeling task are far more predictive of LLM agreement. Our findings suggest that when using LLMs to annotate data, under-representing the views of particular groups is not a substantial concern. We conclude with a discussion of the implications for researchers and practitioners.
- Abstract(参考訳): 研究者は、研究用および応用用両方のデータにLLM(generative large language model)を用いたラベル付けを提案する。
この文献は、他の自然言語モデルと比較してLLMの性能が向上していることを強調し、LLMは一般的に、精度、精度、リコール、F1スコアなどの標準的な指標において、他のモデルよりも優れていることを指摘している。
しかし、以前の文献では、言語モデルに埋め込まれたバイアス、特に潜在的に有害なコンテンツのような論争的なトピックについても強調されている。
このバイアスは、より多様な視点で多数派と不均等に整合するLSMによってラベルが適用される可能性がある。
本稿では,LLMがこれらの論争的なタスクに対して,様々な視点でどのように表現されているかを評価する。
4つのデータセット上の4つのアノテーションタスクにおいて、LLMは、人口統計に基づくアノテータとのかなりの相違を示さないことを示す。
代わりに、ラベル付けタスクにおける人間のアノテータ間のモデル、プロンプト、不一致は、LCM合意よりもはるかに予測的である。
以上の結果から, LLM を用いてデータアノテートを行う場合, 特定のグループの視点を低く表現することは, 重大な問題ではないことが示唆された。
研究者や実践者にとっての意義について論じる。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文 参考訳(メタデータ) (2025-01-19T07:09:11Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Examining the Influence of Political Bias on Large Language Model Performance in Stance Classification [5.8229466650067065]
大規模言語モデル(LLM)が、政治的にチャージされたスタンスをより正確に分類する傾向を示すかを検討する。
本研究は,様々な政治的指向性姿勢分類課題において,LSMの性能に統計的に有意な差が認められた。
LLMは、ステートメントが指示されるターゲットにあいまいさがある場合、位置分類の精度が劣る。
論文 参考訳(メタデータ) (2024-07-25T01:11:38Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Fairness in Large Language Models: A Taxonomic Survey [2.669847575321326]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
多くの実世界のアプリケーションで有望な性能を示したにもかかわらず、これらのアルゴリズムのほとんどは公平さを考慮に入れていない。
論文 参考訳(メタデータ) (2024-03-31T22:22:53Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Confronting LLMs with Traditional ML: Rethinking the Fairness of Large Language Models in Tabular Classifications [23.963586791210414]
大規模言語モデル (LLM) は, 学習データから社会的偏見を継承する傾向にあり, 分類作業における公平性に大きな影響を及ぼすことを示した。
この観察は、社会的バイアスがLSM自体に固有のものであり、事前学習されたコーパスから継承されていることを強調している。
論文 参考訳(メタデータ) (2023-10-23T06:31:28Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。