論文の概要: Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.28802v1
- Date: Wed, 27 May 2026 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.260332
- Title: Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization
- Title(参考訳): 安定信号としての人間のラベル変動:クロスアノテータ選好最適化によるアノテータ-特有説明行動の学習
- Authors: Beiduo Chen, Pingjun Hong, Ziyun Zhang, Benjamin Roth, Anna Korhonen, Barbara Plank,
- Abstract要約: 自由文の説明は、ラベルの不一致を超えて人間のラベルのバリエーションを拡大する。
このようなアノテータ固有のラベル説明動作を,大規模言語モデルで学習し,再現できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 51.93456979139756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text explanations extend human label variation (HLV) beyond label disagreement by revealing the reasoning and preferences behind annotators' decisions. We study whether large language models (LLMs) can learn and reproduce such annotator-specific label-explanation behavior. Using two sentence-pair tasks with four annotators each -- natural language inference and paraphrase judgment -- we first analyze whether annotators exhibit stable individual patterns. We find that such patterns are weak at the single-annotation level due to strong input-content effects, but become detectable after input-content reduction and annotator-level aggregation. We then compare prompting and supervised fine-tuning (SFT) baselines and propose cross-annotator preference optimization (CAPO), which contrasts a target annotator's response with other valid but less target-specific annotations for the same input. Experiments show that prompting is limited and unstable, SFT better captures annotator-specific behavior, and CAPO further improves aggregation-aware imitation and judge-based attribution while preserving target-specific reasoning patterns under human validation. Overall, our results show that HLV can be learned as annotator-specific label-explanation behavior, suggesting a path toward scalable explanation-based annotation grounded in annotator histories rather than labels alone.
- Abstract(参考訳): フリーテキストの説明は、アノテータの判断の背後にある推論と嗜好を明らかにすることによって、ラベルの不一致を超えて人間のラベルのバリエーション(HLV)を拡張する。
本研究では,大言語モデル(LLM)がアノテータ固有のラベル説明動作を学習し,再現できるかどうかを検討する。
4つのアノテータを持つ2つの文ペアタスク(自然言語推論とパラフレーズ判断)を用いて、アノテータが安定した個々のパターンを示すかどうかをまず分析する。
これらのパターンは、強い入力コンテンツ効果により単一アノテーションレベルで弱いが、入力コンテンツ還元とアノテータレベルのアグリゲーションによって検出される。
次に、プロンプトおよび教師付き微調整(SFT)ベースラインを比較し、ターゲットアノテータの応答と、同じ入力に対してターゲット固有のアノテーションとを対比するクロスアノテータ選好最適化(CAPO)を提案する。
実験によると、プロンプトは制限され不安定であり、SFTはアノテータ固有の振る舞いをよりよく捉え、CAPOは人間の検証下でターゲット固有の推論パターンを保ちながら、アグリゲーションを意識した模倣と判断に基づく帰属をさらに改善する。
以上の結果から,HLVはアノテータ固有のラベル説明行動として学習できることが示唆された。
関連論文リスト
- ReasonScaffold: A Scaffolded Reasoning-based Annotation Protocol for Human-AI Co-Annotation [2.5819252531158683]
textbfReasonScaffoldは、予測ラベルを保ちながらLLM生成の説明を公開するための足場付き推論アノテーションプロトコルである。
本研究では,アノテート精度を評価するよりも,人間のアノテート行動が制御された環境でのアノテート行動にどのように影響するかを検討する。
本研究の結果から, 推論への露出は, 一致度の増加と最小限の修正と結びついており, 広範囲な変化を招くことなく, 曖昧な症例の解決に有効であることが示唆された。
論文 参考訳(メタデータ) (2026-03-22T07:14:27Z) - QuMAB: Query-based Multi-Annotator Behavior Modeling with Reliability under Sparse Labels [23.555446749682467]
マルチアノテーション学習は伝統的に、様々なアノテーションを集約して単一の真実を近似し、不一致をノイズとして扱う。
本稿では,サンプル・ワイド・アグリゲーションからアノテータ・ワイド・ビヘイビア・モデリングへのパラダイムシフトを紹介する。
アノテータの不一致をノイズではなく貴重な情報として扱うことにより、アノテータ固有の行動パターンをモデル化することで、未ラベルデータを再構築してアノテーションコストを低減し、集約信頼性を高め、アノテータの決定動作を説明することができる。
論文 参考訳(メタデータ) (2025-07-23T16:17:43Z) - Subjective Logic Encodings [20.458601113219697]
データパースペクティビズムは、アノテーション間の不一致を利用してモデルを学習しようとする。
主観論理SLEはアノテーションをアノテータの意見として明示的にエンコードする分類対象を構築するためのフレームワークである。
論文 参考訳(メタデータ) (2025-02-17T15:14:10Z) - From Weak to Strong Sound Event Labels using Adaptive Change-Point Detection and Active Learning [11.312115846980602]
音声録音セグメントの弱いラベルアノテーションを機械誘導する適応的変化点検出法(A-CPD)を提案する。
ラベルのない音声記録毎に,アノテーションを導くために使用する確率曲線の導出に予測モデルを用いる。
アノテーション予算の制限により,高品質なラベルを抽出し,A-CPDに好適な結果を示すことができることを示す。
論文 参考訳(メタデータ) (2024-03-13T13:33:35Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to
Improve Hate Speech Detection [18.823219608659986]
AnnoBERTは、アノテータの特徴とラベルテキストを統合してヘイトスピーチを検出する最初のアーキテクチャである。
トレーニング中、モデルはアノテータとラベルの選択をテキストの一部に関連付ける。
評価中、ラベル情報が得られない場合、モデルは、参加アノテータによって与えられる集約されたラベルを予測する。
論文 参考訳(メタデータ) (2022-12-20T16:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。