論文の概要: From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape
- arxiv url: http://arxiv.org/abs/2401.06431v1
- Date: Fri, 12 Jan 2024 07:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:09:20.003134
- Title: From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape
- Title(参考訳): 自動化から拡張へ:ランドスケープのエッセイを高める大規模言語モデル
- Authors: Changrong Xiao, Wenxing Ma, Sean Xin Xu, Kunpeng Zhang, Yufang Wang,
Qi Fu
- Abstract要約: 本研究では,大規模言語モデル(LLM),特に GPT-4 と細調整 GPT-3.5 が,自動エッセイ評価システムにおける有効性について検討した。
パブリックデータセットとプライベートデータセットの両方で実施した総合的な実験は、LLMベースのAESシステムの顕著な利点を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 14.758096079392674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Receiving immediate and personalized feedback is crucial for second-language
learners, and Automated Essay Scoring (AES) systems are a vital resource when
human instructors are unavailable. This study investigates the effectiveness of
Large Language Models (LLMs), specifically GPT-4 and fine-tuned GPT-3.5, as
tools for AES. Our comprehensive set of experiments, conducted on both public
and private datasets, highlights the remarkable advantages of LLM-based AES
systems. They include superior accuracy, consistency, generalizability, and
interpretability, with fine-tuned GPT-3.5 surpassing traditional grading
models. Additionally, we undertake LLM-assisted human evaluation experiments
involving both novice and expert graders. One pivotal discovery is that LLMs
not only automate the grading process but also enhance the performance of human
graders. Novice graders when provided with feedback generated by LLMs, achieve
a level of accuracy on par with experts, while experts become more efficient
and maintain greater consistency in their assessments. These results underscore
the potential of LLMs in educational technology, paving the way for effective
collaboration between humans and AI, ultimately leading to transformative
learning experiences through AI-generated feedback.
- Abstract(参考訳): 直接的でパーソナライズされたフィードバックを受け取ることは、第二言語学習者にとって不可欠であり、自動エッセイスコアリング(aes)システムは、人間のインストラクターが利用できない場合に必須のリソースである。
本研究では,大規模言語モデル(LLM),特に GPT-4 および 微調整 GPT-3.5 の有効性について検討した。
パブリックデータセットとプライベートデータセットの両方で実施した包括的な実験は、LLMベースのAESシステムの顕著な利点を強調します。
精度、一貫性、一般化性、解釈性は優れており、gpt-3.5は従来のグレーディングモデルを上回る。
また,初心者と専門家の両方を対象に,llmによる評価実験を行った。
1つの重要な発見は、LLMがグラデーションプロセスを自動化するだけでなく、人間のグレーダーのパフォーマンスを向上させることである。
LLMが生成したフィードバックを提供する初心者は、専門家と同等の精度を達成し、専門家はより効率的になり、評価においてより一貫性を維持する。
これらの結果は、教育技術におけるLLMの可能性を強調し、人間とAIの効果的なコラボレーションの道を開いた。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Students Rather Than Experts: A New AI For Education Pipeline To Model More Human-Like And Personalised Early Adolescences [11.576679362717478]
本研究は,仮想学生エージェントをモデル化するための文脈としての言語学習に焦点を当てた。
教師と生徒の個人的交流のデータセットを様々な性格特性でキュレートすることにより,多次元的評価実験を行う。
論文 参考訳(メタデータ) (2024-10-21T07:18:24Z) - Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs [19.331803578031188]
本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。
我々の研究は、専門家のアノテータと大規模言語モデル(LLM)の長所を生かした協調パラダイムを導入する。
マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。
論文 参考訳(メタデータ) (2024-09-16T20:05:57Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - LLMs Could Autonomously Learn Without External Supervision [36.36147944680502]
大規模言語モデル(LLM)は、伝統的に人間の注釈付きデータセットと事前定義されたトレーニング目標に結び付けられてきた。
本稿では,LLMのための自律学習手法を提案する。
本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。
論文 参考訳(メタデータ) (2024-06-02T03:36:37Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。