論文の概要: FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays
- arxiv url: http://arxiv.org/abs/2606.06271v1
- Date: Thu, 04 Jun 2026 15:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.889541
- Title: FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays
- Title(参考訳): FOXGLOVE: 専門家からのフィードバックと論証的エッセイのLLMを理解する
- Authors: Yijun Liu, Yifan Song, John Gallagher, Sarah Sterman, Tal August,
- Abstract要約: FOXGLOVE(FOXGLOVE)は,69級の論論エッセイにおいて,教官による696件のフィードバックコメントのデータセットである。
インストラクターとLLMは、目標やエッセイの位置にも同様にフィードバックを分配するが、インストラクターとモデルはフィードバックを提供する特定の文に基づいて分散する。
- 参考スコア(独自算出の注目度): 21.90557945161922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) are increasingly used to generate writing feedback, there remains no systematic comparison of LLM and expert feedback on the dimensions that writing research identifies as central to revision: goal-orientation, anchoring to specific sentences, and prioritization. We introduce FOXGLOVE, a dataset of 696 feedback comments written by trained writing instructors on 69 twelfth-grade argumentative essays, paired with 1,644 comments generated from four frontier LLMs under a shared protocol, totaling 2,340 comments. We provide expert quality ratings on a subset of both instructor and LLM comments. We find that instructors and LLMs distribute feedback similarly across goals and essay positions, yet instructors and models diverge on the specific sentences on which to provide feedback. Additionally, we find that models tend to write more complex feedback and use fewer questions than instructors. LLM feedback also receives higher ratings on most dimensions of quality, as rated by instructors, but much of this advantage appears to be attributable to lengthier comments. FOXGLOVE enables systematic comparison of where human and LLM feedback align, diverge, and differ.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、文章のフィードバックを生成するのにますます使われているが、LLMと専門家のフィードバックの体系的な比較は行われていない。
FOXGLOVE(FOXGLOVE)は、69級の論証エッセイで696人の教官が書いたフィードバックコメントのデータセットであり、共有プロトコルの下で4つのフロンティアLSMから生成された1,644のコメントと組み合わせ、合計2,340のコメントを出力する。
我々は、インストラクターとLLMコメントのサブセットに対して、専門家による品質評価を提供する。
インストラクターとLLMは、目標やエッセイの位置にも同様にフィードバックを分配するが、インストラクターとモデルはフィードバックを提供する特定の文に基づいて分散する。
さらに、モデルがより複雑なフィードバックを書く傾向があり、インストラクターよりも少ない質問を使う傾向があることもわかりました。
LLMのフィードバックは、インストラクターによって評価されるように、ほとんどの品質の次元で高い評価を受けるが、この利点の多くは、より長いコメントに起因しているようである。
FOXGLOVEは、人間とLLMのフィードバックの整合性、分散性、相違点の体系的な比較を可能にする。
関連論文リスト
- AI Fact-Checking in the Wild: A Field Evaluation of LLM-Written Community Notes on X [1.2423236865734466]
大規模言語モデルは、ソーシャルメディア上でコンテキストファクトチェックを行う上で有望な能力を示す。
本稿では,ライブソーシャルメディアプラットフォーム上に展開されたLCMによるファクトチェックのフィールド評価について紹介する。
以上の結果から, LLMは高品質で, 広く有用なファクトチェックに有効であることが示唆された。
論文 参考訳(メタデータ) (2026-04-03T00:01:29Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback [57.200668979963694]
我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。
本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
論文 参考訳(メタデータ) (2025-07-21T18:56:50Z) - "I Wrote, I Paused, I Rewrote" Teaching LLMs to Read Between the Lines of Student Writing [0.0]
Geminiのような大規模な言語モデルは、学生の執筆を支援する一般的なツールになりつつある。
彼らのフィードバックの大部分は、そのテキストの書き方に関する重要な文脈を欠いた最後のエッセイに基づいている。
私たちは、学生のタイプとエッセイの時間とともにどのように進化していくかをキャプチャーするデジタル・ライティング・ツールを構築しました。
論文 参考訳(メタデータ) (2025-06-09T20:42:02Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。