論文の概要: Optimizing LLM Annotation of Classroom Discourse through Multi-Agent Orchestration
- arxiv url: http://arxiv.org/abs/2603.13353v1
- Date: Sun, 08 Mar 2026 16:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.113204
- Title: Optimizing LLM Annotation of Classroom Discourse through Multi-Agent Orchestration
- Title(参考訳): マルチエージェントオーケストレーションによる授業談話のLLMアノテーションの最適化
- Authors: Bakhtawar Ahtisham, Kirk Vanacore, Rene F. Kizilcec,
- Abstract要約: 大規模言語モデル(LLM)は、教育データを注釈付けするためのスケーラブルなツールとしてますます位置づけられている。
しかし, シングルパスLCMの出力は, ハイテイクな教育施設では信頼性が低いことが示唆されている。
このスケールと妥当性の緊張は、現代の教育データ科学の核心にある。
- 参考スコア(独自算出の注目度): 0.21410799064827235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly positioned as scalable tools for annotating educational data, including classroom discourse, interaction logs, and qualitative learning artifacts. Their ability to rapidly summarize instructional interactions and assign rubric-aligned labels has fueled optimism about reducing the cost and time associated with expert human annotation. However, growing evidence suggests that single-pass LLM outputs remain unreliable for high-stakes educational constructs that require contextual, pedagogical, or normative judgment, such as instructional intent or discourse moves. This tension between scale and validity sits at the core of contemporary education data science. In this work, we present and empirically evaluate a hierarchical, cost-aware orchestration framework for LLM-based annotation that improves reliability while explicitly modeling computational tradeoffs. Rather than treating annotation as a one-shot prediction problem, we conceptualize it as a multi-stage epistemic process comprising (1) an unverified single-pass annotation stage, in which models independently assign labels based on the rubric; (2) a self-verification stage, in which each model audits its own output against rubric definitions and revises its label if inconsistencies are detected; and (3) a disagreement-centric adjudication stage, in which an independent adjudicator model examines the verified labels and justifications and determines a final label in accordance with the rubric. This structure mirrors established human annotation workflows in educational research, where initial coding is followed by self-checking and expert resolution of disagreements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教室での会話、対話ログ、定性的学習アーティファクトなど、教育データを注釈付けするためのスケーラブルなツールとしてますます位置づけられている。
インストラクショナル・インタラクションを迅速に要約し、ルーブリック・アラインメント・ラベルを割り当てる能力は、専門家の人間のアノテーションに関連するコストと時間を削減するという楽観性を刺激した。
しかし、増大する証拠は、単一パスLPM出力が、文脈的、教育的、あるいは規範的判断を必要とする高信頼の教育構造、例えば教育意図や言論運動に対して信頼できないことを示唆している。
このスケールと妥当性の緊張は、現代の教育データ科学の核心にある。
本研究では,計算トレードオフを明示的にモデル化し,信頼性を向上するLLMアノテーションのための階層的かつコストを意識したオーケストレーションフレームワークを提示し,実証的に評価する。
アノテーションを1ショットの予測問題として扱うのではなく、(1)未検証の単一パスアノテーション段階、(2)ルーブリックに基づいてラベルを独立に割り当てる段階、(2)各モデルがルーブリック定義に対して独自のアウトプットを監査し、不整合が検出された場合にラベルを改訂する段階、(3)独立の代弁者モデルが検証されたラベルを検証し、ルーブリックに従って最終ラベルを決定する段階を含む多段階の認識段階として概念化する。
この構造は、初期のコーディングに続いて自己チェックと専門家による意見の不一致の解決を行う、教育研究において確立された人間のアノテーションワークフローを反映している。
関連論文リスト
- Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。
本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。
スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文 参考訳(メタデータ) (2026-02-04T14:30:52Z) - Enhancing LLM-Based Data Annotation with Error Decomposition [6.6544828402388445]
大規模言語モデルは、データアノテーションタスクのための人間のコーディングに代わるスケーラブルな代替手段を提供する。
主観的アノテーションタスクのパフォーマンスは、一貫性が低く、エラーを起こしやすい。
モデル駆動不正確性からタスク独立性の曖昧さを分離するために,ヒューマン・イン・ザ・ループのステップを取り入れた診断評価パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-17T05:43:17Z) - FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。
まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。
第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文 参考訳(メタデータ) (2026-01-16T14:08:51Z) - Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration [1.4499356176178066]
本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。
メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2026-01-05T10:00:14Z) - Consistency-Aware Editing for Entity-level Unlearning in Language Models [53.522931419965424]
本稿では,エンティティレベルのアンラーニングのための新しい一貫性対応編集(CAE)フレームワークを提案する。
CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。
次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
論文 参考訳(メタデータ) (2025-12-19T15:18:07Z) - Measuring Teaching with LLMs [4.061135251278187]
本稿では,文レベルの埋め込みをベースとした独自のLarge Language Modelを使用する。
これらの特化モデルは,0.65以上の専門家による評価で,人間レベルおよび超人的性能を達成可能であることを示す。
また,総合的なモデルスコアは教師の付加価値尺度と一致し,生徒の学習に関連する特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2025-10-27T03:42:04Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。