論文の概要: ReasonScaffold: A Scaffolded Reasoning-based Annotation Protocol for Human-AI Co-Annotation
- arxiv url: http://arxiv.org/abs/2603.21094v2
- Date: Thu, 26 Mar 2026 06:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 13:32:29.863105
- Title: ReasonScaffold: A Scaffolded Reasoning-based Annotation Protocol for Human-AI Co-Annotation
- Title(参考訳): ReasonScaffold:Human-AI Co- AnnotationのためのScaffolded Reasoningベースのアノテーションプロトコル
- Authors: Smitha Muthya Sudheendra, Jaideep Srivastava,
- Abstract要約: textbfReasonScaffoldは、予測ラベルを保ちながらLLM生成の説明を公開するための足場付き推論アノテーションプロトコルである。
本研究では,アノテート精度を評価するよりも,人間のアノテート行動が制御された環境でのアノテート行動にどのように影響するかを検討する。
本研究の結果から, 推論への露出は, 一致度の増加と最小限の修正と結びついており, 広範囲な変化を招くことなく, 曖昧な症例の解決に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 2.5819252531158683
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human annotation is central to NLP evaluation, yet subjective tasks often exhibit substantial variability across annotators. While large language models (LLMs) can provide structured reasoning to support annotation, their influence on human annotation behavior remains underexplored. We introduce \textbf{ReasonScaffold}, a scaffolded reasoning annotation protocol that exposes LLM-generated explanations while withholding predicted labels. We study how reasoning affects human annotation behavior in a controlled setting, rather than evaluating annotation accuracy. Using a two-pass protocol inspired by Delphi-style revision, annotators first label instances independently and then revise their decisions after viewing model-generated reasoning. We evaluate the approach on sentiment classification and opinion detection tasks, analyzing changes in inter-annotator agreement and revision behavior. To quantify these effects, we introduce the Annotator Effort Proxy (AEP), a metric capturing the proportion of labels revised after exposure to reasoning. Our results show that exposure to reasoning is associated with increased agreement, along with minimal revision, suggesting that reasoning helps resolve ambiguous cases without inducing widespread changes. These findings provide insight into how reasoning explanations shape annotation consistency and highlight reasoning-based scaffolds as a practical mechanism for human--AI co-annotation workflows.
- Abstract(参考訳): 人間のアノテーションはNLP評価の中心であるが、主観的なタスクはアノテータ間で大きな変動を示すことが多い。
大規模言語モデル(LLM)は、アノテーションをサポートする構造的推論を提供するが、人間のアノテーションの振る舞いに対する影響は未解明のままである。
我々は,予測ラベルを保ちながら LLM 生成した説明を公開する,足場付き推論アノテーションプロトコルである \textbf{ReasonScaffold} を紹介する。
本研究では,アノテート精度を評価するよりも,人間のアノテート行動が制御された環境でのアノテート行動にどのように影響するかを検討する。
Delphiスタイルのリビジョンにインスパイアされた2パスプロトコルを使用して、アノテータはまず独立してインスタンスをラベル付けし、モデル生成の推論を見た後にその決定を更新する。
我々は、感情分類と意見検出タスクに対するアプローチを評価し、アノテーション間の合意や修正行動の変化を分析した。
これらの効果を定量化するために,アノテータEffort Proxy (AEP) を導入する。
本研究の結果から, 推論への露出は同意度の増加と最小限の修正と結びついており, 広範囲な変化を招くことなく, 曖昧な症例を解決できることが示唆された。
これらの知見は,人間-AI共同アノテーションワークフローの実践的メカニズムとして,推論説明の整合性や推論に基づく足場の強調について考察する。
関連論文リスト
- Beyond Consensus: Perspectivist Modeling and Evaluation of Annotator Disagreement in NLP [25.097081181685613]
アノテーションの不一致は、特に毒性の検出やスタンス分析のような主観的で曖昧なタスクに対して、NLPで広く見られる。
まず、データ、タスク、アノテータ要素にまたがる不一致の原因のドメインに依存しない分類を提示する。
次に,予測対象とプール構造によって定義された共通フレームワークを用いてモデリング手法を合成する。
論文 参考訳(メタデータ) (2026-01-14T01:26:29Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。