論文の概要: Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs
- arxiv url: http://arxiv.org/abs/2401.06431v2
- Date: Sat, 15 Jun 2024 03:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 06:54:55.291116
- Title: Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs
- Title(参考訳): Human-AI Collaborative Essay Scoring: LLMを用いたデュアルプロセスフレームワーク
- Authors: Changrong Xiao, Wenxing Ma, Qingping Song, Sean Xin Xu, Kunpeng Zhang, Yufang Wang, Qi Fu,
- Abstract要約: 本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
- 参考スコア(独自算出の注目度): 13.262711792955377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Receiving timely and personalized feedback is essential for second-language learners, especially when human instructors are unavailable. This study explores the effectiveness of Large Language Models (LLMs), including both proprietary and open-source models, for Automated Essay Scoring (AES). Through extensive experiments with public and private datasets, we find that while LLMs do not surpass conventional state-of-the-art (SOTA) grading models in performance, they exhibit notable consistency, generalizability, and explainability. We propose an open-source LLM-based AES system, inspired by the dual-process theory. Our system offers accurate grading and high-quality feedback, at least comparable to that of fine-tuned proprietary LLMs, in addition to its ability to alleviate misgrading. Furthermore, we conduct human-AI co-grading experiments with both novice and expert graders. We find that our system not only automates the grading process but also enhances the performance and efficiency of human graders, particularly for essays where the model has lower confidence. These results highlight the potential of LLMs to facilitate effective human-AI collaboration in the educational context, potentially transforming learning experiences through AI-generated feedback.
- Abstract(参考訳): タイムリーでパーソナライズされたフィードバックを受け取ることは、特に人間のインストラクターが利用できない場合、第二言語学習者にとって不可欠である。
本研究では,AES(Automated Essay Scoring)において,プロプライエタリモデルとオープンソースモデルの両方を含むLLM(Large Language Models)の有効性について検討する。
公開およびプライベートデータセットによる広範な実験により、従来のSOTA(State-of-the-art)グレーディングモデルを超えないが、顕著な一貫性、一般化可能性、説明可能性を示すことがわかった。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
我々のシステムでは、精度の高いグレーディングと高品質なフィードバックを提供しており、少なくともミスグレーディングを緩和する能力に加えて、微調整されたプロプライエタリなLCMに匹敵する。
さらに,初等者および熟練者の両方を対象に,人間とAIの共学実験を行った。
我々のシステムでは、学習プロセスの自動化だけでなく、特にモデルの信頼性が低いエッセイにおいて、人間の学級のパフォーマンスと効率の向上も期待できる。
これらの結果は、LLMが教育的文脈における効果的な人間とAIのコラボレーションを促進する可能性を強調し、AIによるフィードバックを通じて学習経験を変革する可能性がある。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Students Rather Than Experts: A New AI For Education Pipeline To Model More Human-Like And Personalised Early Adolescences [11.576679362717478]
本研究は,仮想学生エージェントをモデル化するための文脈としての言語学習に焦点を当てた。
教師と生徒の個人的交流のデータセットを様々な性格特性でキュレートすることにより,多次元的評価実験を行う。
論文 参考訳(メタデータ) (2024-10-21T07:18:24Z) - Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs [19.331803578031188]
本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。
我々の研究は、専門家のアノテータと大規模言語モデル(LLM)の長所を生かした協調パラダイムを導入する。
マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。
論文 参考訳(メタデータ) (2024-09-16T20:05:57Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - LLMs Could Autonomously Learn Without External Supervision [36.36147944680502]
大規模言語モデル(LLM)は、伝統的に人間の注釈付きデータセットと事前定義されたトレーニング目標に結び付けられてきた。
本稿では,LLMのための自律学習手法を提案する。
本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。
論文 参考訳(メタデータ) (2024-06-02T03:36:37Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。