論文の概要: From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring
- arxiv url: http://arxiv.org/abs/2603.06424v1
- Date: Fri, 06 Mar 2026 15:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.192734
- Title: From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring
- Title(参考訳): プロンプティングから選好最適化へ:LLMに基づく自動エッセイスコーリングの比較研究
- Authors: Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le,
- Abstract要約: 大規模言語モデル (LLM) が最近,自動エッセイスコーリング (AES) を改定した。
本稿では,LLM をベースとした主要な AES パラダイムを包括的に比較する。
この結果から,k-SFTとRAGを組み合わせた構成がF1-Score 93%で最強となる精度・コスト・ロバスト性トレードオフが明らかとなった。
- 参考スコア(独自算出の注目度): 2.3843476850953995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have recently reshaped Automated Essay Scoring (AES), yet prior studies typically examine individual techniques in isolation, limiting understanding of their relative merits for English as a Second Language (L2) writing. To bridge this gap, we presents a comprehensive comparison of major LLM-based AES paradigms on IELTS Writing Task~2. On this unified benchmark, we evaluate four approaches: (i) encoder-based classification fine-tuning, (ii) zero- and few-shot prompting, (iii) instruction tuning and Retrieval-Augmented Generation (RAG), and (iv) Supervised Fine-Tuning combined with Direct Preference Optimization (DPO) and RAG. Our results reveal clear accuracy-cost-robustness trade-offs across methods, the best configuration, integrating k-SFT and RAG, achieves the strongest overall results with F1-Score 93%. This study offers the first unified empirical comparison of modern LLM-based AES strategies for English L2, promising potential in auto-grading writing tasks. Code is public at https://github.com/MinhNguyenDS/LLM_AES-EnL2
- Abstract(参考訳): 大規模言語モデル (LLMs) は、最近、AES (Automated Essay Scoring) を形作ったが、以前の研究では、個別のテクニックを個別に検討し、第二言語 (L2) としての英語に対する相対的な利点の理解を制限していた。
このギャップを埋めるため、IELTS 書き込みタスク~2上で、主要な LLM ベースの AES パラダイムを包括的に比較する。
この統一されたベンチマークでは、以下の4つのアプローチを評価します。
(i)エンコーダによる分類微調整
(ii)0発と小発のプロンプト
三 指導調律及び検索増強世代(RAG)及び
(4)直接選好最適化(DPO)とRAGを併用した監視ファインチューニング。
この結果から,k-SFTとRAGを組み合わせた構成がF1-Score 93%で最強となる精度・コスト・ロバスト性トレードオフが明らかとなった。
本研究は、英語L2に対する近代LLMに基づくAES戦略の統一的な比較実験を行い、自動階調処理の可能性を期待する。
コードはhttps://github.com/MinhNguyenDS/LLM_AES-EnL2で公開されている。
関連論文リスト
- Fine-Tuning Causal LLMs for Text Classification: Embedding-Based vs. Instruction-Based Approaches [0.0]
我々は、リソース制約下での下流テキスト分類のためのLLM(Large Language Models)を微調整する戦略について検討する。
1)事前訓練した因果LLMに分類ヘッドをアタッチしてタスクを微調整し,(2)分類のためのプロンプト>応答形式でLSMを指導する,という2つの手法を検討した。
論文 参考訳(メタデータ) (2025-12-14T13:02:06Z) - LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models [0.2578242050187029]
本稿では,AESをペア比較タスクとして定式化する方法であるLCES(Comparent Essay Scoring)を提案する。
具体的には、2つのエッセイのどちらが優れているかを判断し、そのような比較を多く集め、それらを連続的なスコアに変換するようにLCMに指示する。
AESベンチマークデータセットを用いた実験により、LCESは計算効率を保ちながら従来のゼロショット法よりも精度が高いことが示された。
論文 参考訳(メタデータ) (2025-05-13T12:26:16Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。