論文の概要: AI Annotation Orchestration: Evaluating LLM verifiers to Improve the Quality of LLM Annotations in Learning Analytics
- arxiv url: http://arxiv.org/abs/2511.09785v1
- Date: Fri, 14 Nov 2025 01:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.482634
- Title: AI Annotation Orchestration: Evaluating LLM verifiers to Improve the Quality of LLM Annotations in Learning Analytics
- Title(参考訳): AIアノテーションオーケストレーション:学習分析におけるLLMアノテーションの品質向上のためのLLM検証器の評価
- Authors: Bakhtawar Ahtisham, Kirk Vanacore, Jinsook Lee, Zhuqian Zhou, Doug Pietrzak, Rene F. Kizilcec,
- Abstract要約: 大規模言語モデル(LLM)は、学習相互作用の注釈付けにますます使われていますが、信頼性に関する懸念は彼らのユーティリティを制限します。
検証指向のオーケストレーション・プロンプティングモデルが自身のラベル(自己検証)をチェックしたり、相互に監査(相互検証)するかどうかを検証し、学習談話の質的コーディングを向上させるかを検証する。
- 参考スコア(独自算出の注目度): 0.17240671897505613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to annotate learning interactions, yet concerns about reliability limit their utility. We test whether verification-oriented orchestration-prompting models to check their own labels (self-verification) or audit one another (cross-verification)-improves qualitative coding of tutoring discourse. Using transcripts from 30 one-to-one math sessions, we compare three production LLMs (GPT, Claude, Gemini) under three conditions: unverified annotation, self-verification, and cross-verification across all orchestration configurations. Outputs are benchmarked against a blinded, disagreement-focused human adjudication using Cohen's kappa. Overall, orchestration yields a 58 percent improvement in kappa. Self-verification nearly doubles agreement relative to unverified baselines, with the largest gains for challenging tutor moves. Cross-verification achieves a 37 percent improvement on average, with pair- and construct-dependent effects: some verifier-annotator pairs exceed self-verification, while others reduce alignment, reflecting differences in verifier strictness. We contribute: (1) a flexible orchestration framework instantiating control, self-, and cross-verification; (2) an empirical comparison across frontier LLMs on authentic tutoring data with blinded human "gold" labels; and (3) a concise notation, verifier(annotator) (e.g., Gemini(GPT) or Claude(Claude)), to standardize reporting and make directional effects explicit for replication. Results position verification as a principled design lever for reliable, scalable LLM-assisted annotation in Learning Analytics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学習相互作用の注釈付けにますます使われていますが、信頼性に関する懸念は彼らのユーティリティを制限します。
検証指向のオーケストレーション・プロンプトモデルでラベルの確認(自己検証)や相互検証(相互検証)を行えば,学習談話の質的コーディングが向上するかどうかを検証する。
30の1対1の数学セッションの書き起こしを用いて、3つのプロダクションLLM(GPT, Claude, Gemini)を比較した。
アウトプットはコーエンのカッパを用いて、盲目で意見の相違に焦点を当てた人間の判断に対してベンチマークされる。
全体として、オーケストレーションは、Kappaの58%の改善をもたらす。
自己検証は、未検証のベースラインに対する合意をほぼ2倍にし、チューターの動きに挑戦する最大の利益をもたらす。
いくつかの検証器とアノテーションのペアは自己検証を超え、他の検証器の厳密さの違いを反映してアライメントを減少させる。
本研究は,(1)制御,自己検証,相互検証を行うフレキシブルなオーケストレーションフレームワーク,(2)視覚障害者の「ゴールド」ラベルを用いた真の学習データに対するフロンティアのLLM間の実証的な比較,(3)簡潔な表記法,検証者(アノテーション)(例:Gemini(GPT),あるいはClaude(Claude))を用いて,レポーティングを標準化し,再現のために指向的な効果を明示する。
学習分析における信頼性,スケーラブルなLCM支援アノテーションのための設計レバーとしての結果位置検証
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Unsupervised Robust Cross-Lingual Entity Alignment via Neighbor Triple Matching with Entity and Relation Texts [17.477542644785483]
言語間エンティティアライメント(EA)は、異なる言語間での複数の知識グラフ(KG)の統合を可能にする。
近隣の3重マッチング戦略により、エンティティレベルとリレーレベルアライメントを共同で実行するEAパイプライン。
論文 参考訳(メタデータ) (2024-07-22T12:25:48Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。