論文の概要: Humans Hallucinate Too: Language Models Identify and Correct Subjective Annotation Errors With Label-in-a-Haystack Prompts
- arxiv url: http://arxiv.org/abs/2505.17222v1
- Date: Thu, 22 May 2025 18:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.657116
- Title: Humans Hallucinate Too: Language Models Identify and Correct Subjective Annotation Errors With Label-in-a-Haystack Prompts
- Title(参考訳): 人間の幻覚:言語モデルによるラベル・イン・ア・ヘイスタック・プロンプトによる主観的アノテーション誤りの同定と修正
- Authors: Georgios Chochlakis, Peter Wu, Arjun Bedi, Marcus Ma, Kristina Lerman, Shrikanth Narayanan,
- Abstract要約: 大規模言語モデル(LLM)を用いた文脈におけるラベル検証について検討する。
主観的ラベル補正のためのLiaHR(Label-in-a-Haystack Rectification)フレームワークを提案する。
このアプローチは、信号と雑音の比率を高めるために、アノテーションパイプラインに統合することができる。
- 参考スコア(独自算出の注目度): 26.415262737856967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling complex subjective tasks in Natural Language Processing, such as recognizing emotion and morality, is considerably challenging due to significant variation in human annotations. This variation often reflects reasonable differences in semantic interpretations rather than mere noise, necessitating methods to distinguish between legitimate subjectivity and error. We address this challenge by exploring label verification in these contexts using Large Language Models (LLMs). First, we propose a simple In-Context Learning binary filtering baseline that estimates the reasonableness of a document-label pair. We then introduce the Label-in-a-Haystack setting: the query and its label(s) are included in the demonstrations shown to LLMs, which are prompted to predict the label(s) again, while receiving task-specific instructions (e.g., emotion recognition) rather than label copying. We show how the failure to copy the label(s) to the output of the LLM are task-relevant and informative. Building on this, we propose the Label-in-a-Haystack Rectification (LiaHR) framework for subjective label correction: when the model outputs diverge from the reference gold labels, we assign the generated labels to the example instead of discarding it. This approach can be integrated into annotation pipelines to enhance signal-to-noise ratios. Comprehensive analyses, human evaluations, and ecological validity studies verify the utility of LiaHR for label correction. Code is available at https://github.com/gchochla/LiaHR.
- Abstract(参考訳): 自然言語処理における複雑な主観的タスク(感情認識や道徳認識など)のモデル化は、人間のアノテーションのかなりのバリエーションのため、かなり難しい。
この変化は、単純な雑音よりも意味論的解釈の合理的な相違を反映し、正当な主観性と誤りを区別するための方法を必要とする。
本稿では,これらの文脈におけるラベル検証をLarge Language Models (LLMs) を用いて検討することによって,この問題に対処する。
まず、文書とラベルのペアの妥当性を推定する、シンプルなIn-Context Learningバイナリフィルタリングベースラインを提案する。
次に、ラベルのコピーではなく、タスク固有の指示(例えば、感情認識)を受けながら、ラベルを再度予測するよう促されるLCMに示すデモに、クエリとそのラベルが含まれる。
LLMの出力にラベル(s)をコピーできないことがいかにタスク関連で情報的かを示す。
そこで,本論文では,モデルが参照するゴールドラベルから発散した場合,生成したラベルを廃棄するのではなく,例に割り当てる,主観的ラベル補正のためのラベル・イン・ア・ヘイスタック・リクティフィケーション(LiaHR)フレームワークを提案する。
このアプローチは、信号と雑音の比率を高めるために、アノテーションパイプラインに統合することができる。
包括的分析,人的評価,生態学的妥当性調査により,ラベル修正におけるLiaHRの有用性が検証された。
コードはhttps://github.com/gchochla/LiaHR.comで入手できる。
関連論文リスト
- Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification [11.19022605804112]
本稿では,ラベルのセマンティクスとメタラベルの精巧化を活用して,複数ラベルの質問分類を検索する新手法RR2QCを紹介する。
実験の結果,RR2QCはPrecision@KとF1スコアの既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-04T06:27:14Z) - Don't Waste a Single Annotation: Improving Single-Label Classifiers
Through Soft Labels [7.396461226948109]
目的とする単一ラベル分類タスクに対する共通データアノテーションとトレーニング手法の限界に対処する。
以上の結果から,信頼性,二次ラベル,不一致などの付加的なアノテータ情報を用いて,ソフトラベルを効果的に生成できることが示唆された。
論文 参考訳(メタデータ) (2023-11-09T10:47:39Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - BERT-Assisted Semantic Annotation Correction for Emotion-Related
Questions [0.0]
EMO20Q(Emotion Twenty Questions)と呼ばれる質問ゲームにおいて,BERTニューラルネットワークモデルを用いてアノテーションタスクに情報をフィードバックする。
本手法は,テキストユーザデータのアノテーションを,複雑な発話レベルのセマンティックラベルで評価・修正する有効な方法であることを示す。
論文 参考訳(メタデータ) (2022-04-02T18:00:49Z) - A Label Dependence-aware Sequence Generation Model for Multi-level
Implicit Discourse Relation Recognition [31.179555215952306]
暗黙の談話関係認識は、談話分析において難しいが重要な課題である。
ラベル依存型シーケンス生成モデル(LDSGM)を提案する。
ボトムアップ方向のラベル依存を利用した相互学習強化訓練法を開発した。
論文 参考訳(メタデータ) (2021-12-22T09:14:03Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。