論文の概要: Bridging the Gap: In-Context Learning for Modeling Human Disagreement
- arxiv url: http://arxiv.org/abs/2506.06113v1
- Date: Fri, 06 Jun 2025 14:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.508676
- Title: Bridging the Gap: In-Context Learning for Modeling Human Disagreement
- Title(参考訳): ギャップをブリッジする: 人間の識別をモデル化するためのインテクスト学習
- Authors: Benedetta Muscato, Yue Li, Gizem Gezici, Zhixue Zhao, Fosca Giannotti,
- Abstract要約: 大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。
本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 8.011316959982654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown strong performance on NLP classification tasks. However, they typically rely on aggregated labels-often via majority voting-which can obscure the human disagreement inherent in subjective annotations. This study examines whether LLMs can capture multiple perspectives and reflect annotator disagreement in subjective tasks such as hate speech and offensive language detection. We use in-context learning (ICL) in zero-shot and few-shot settings, evaluating four open-source LLMs across three label modeling strategies: aggregated hard labels, and disaggregated hard and soft labels. In few-shot prompting, we assess demonstration selection methods based on textual similarity (BM25, PLM-based), annotation disagreement (entropy), a combined ranking, and example ordering strategies (random vs. curriculum-based). Results show that multi-perspective generation is viable in zero-shot settings, while few-shot setups often fail to capture the full spectrum of human judgments. Prompt design and demonstration selection notably affect performance, though example ordering has limited impact. These findings highlight the challenges of modeling subjectivity with LLMs and the importance of building more perspective-aware, socially intelligent models.
- Abstract(参考訳): 大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。
しかし、一般的には集約されたラベルに頼り、多数決によって、主観的なアノテーションに固有の人間の不一致を曖昧にすることがある。
本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
In-context Learning (ICL) をゼロショットおよび少数ショット設定で使用し,3つのラベルモデリング戦略 – 集約されたハードラベル,分離されたハードラベルとソフトラベル – の4つのオープンソース LLM を評価した。
本稿では,テキスト類似性(BM25, PLMベース),アノテーションの不一致(エントロピー),複合ランキング,サンプル順序付け戦略(ランダム対カリキュラムベース)に基づく実演選択手法の評価を行う。
その結果、マルチパースペクティブ・ジェネレーションはゼロショット設定で実現可能である一方で、少数ショットのセットアップでは人間の判断の完全なスペクトルを捉えることができないことが判明した。
プロンプトの設計とデモの選択はパフォーマンスに特に影響するが、例えば順序付けは影響を限定している。
これらの知見は、LLMを用いて主観性をモデル化することの課題と、より視点を意識し、社会的に知的なモデルを構築することの重要性を浮き彫りにした。
関連論文リスト
- Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
本稿では,多言語多言語モデル (LLM) が競合的なラベリングタスクに対する多様な視点を表現していることを示す。
以上の結果から, LLM を用いてデータアノテートを行う場合, 特定のグループの視点を低く表現することは, 重大な問題ではないことが示唆された。
論文 参考訳(メタデータ) (2025-03-29T22:53:15Z) - Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation Disagreement [22.992484902761994]
本研究では,攻撃言語検出における多言語モデル(LLM)の性能を系統的に評価する。
本研究では,二項分類の精度を分析し,モデル信頼度と人的不一致度の関係を検証し,不一致サンプルがモデル決定にどう影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-10T07:14:26Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。