Fugu-MT 論文翻訳(概要): Empirical Comparison of Encoder-Based Language Models and Feature-Based Supervised Machine Learning Approaches to Automated Scoring of Long Essays

論文の概要: Empirical Comparison of Encoder-Based Language Models and Feature-Based Supervised Machine Learning Approaches to Automated Scoring of Long Essays

arxiv url: http://arxiv.org/abs/2601.02659v1
Date: Tue, 06 Jan 2026 02:17:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-07 17:02:12.772929
Title: Empirical Comparison of Encoder-Based Language Models and Feature-Based Supervised Machine Learning Approaches to Automated Scoring of Long Essays
Title（参考訳）: エンコーダに基づく言語モデルと特徴に基づく教師付き機械学習アプローチの長期評価の自動化に対する実証的比較
Authors: Kuo Wang, Haowei Hua, Pengfei Yan, Hong Jiao, Dan Song,
Abstract要約: 長いコンテキストは、テキスト処理においてエンコーダのみの言語モデルに課題を課すことがある。この研究は、長いエッセイの自動評価のためのエンコーダベースの言語モデルをいくつか訓練した。
参考スコア（独自算出の注目度）: 8.899249868081956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long context may impose challenges for encoder-only language models in text processing, specifically for automated scoring of essays. This study trained several commonly used encoder-based language models for automated scoring of long essays. The performance of these trained models was evaluated and compared with the ensemble models built upon the base language models with a token limit of 512?. The experimented models include BERT-based models (BERT, RoBERTa, DistilBERT, and DeBERTa), ensemble models integrating embeddings from multiple encoder models, and ensemble models of feature-based supervised machine learning models, including Gradient-Boosted Decision Trees, eXtreme Gradient Boosting, and Light Gradient Boosting Machine. We trained, validated, and tested each model on a dataset of 17,307 essays, with an 80%/10%/10% split, and evaluated model performance using Quadratic Weighted Kappa. This study revealed that an ensemble-of-embeddings model that combines multiple pre-trained language model representations with gradient-boosting classifier as the ensemble model significantly outperforms individual language models at scoring long essays.
Abstract（参考訳）: ロングコンテキストは、テキスト処理におけるエンコーダのみの言語モデル、特にエッセイの自動スコアリングに課題を課すことがある。この研究は、長いエッセイの自動評価のためのエンコーダベースの言語モデルをいくつか訓練した。これらの訓練されたモデルの性能を評価し、基本言語モデル上に構築されたアンサンブルモデルとトークン制限512で比較した。と。実験されたモデルにはBERTベースのモデル(BERT、RoBERTa、DistilBERT、DeBERTa)、複数のエンコーダモデルからの埋め込みを統合するアンサンブルモデル、Gradient-Boosted Decision Trees、eXtreme Gradient Boosting、Light Gradient Boosting Machineなど、機能ベースの教師付き機械学習モデルのアンサンブルモデルが含まれる。モデルのトレーニング、検証、テストは、17,307エッセイのデータセットで行われ、80%/10%/10%のスプリットで行われ、Quadratic Weighted Kappaを使用してモデルパフォーマンスを評価しました。本研究では,複数の事前学習言語モデル表現と勾配ブースティング分類器を組み合わせたエンサンブル・オブ・エンベディングモデルが,長いエッセイ評価において個々の言語モデルよりも有意に優れていることを示した。

関連論文リスト

Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
LLäMmlein: Transparent, Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文参考訳（メタデータ） (2024-11-17T20:44:34Z)
Collaborative decoding of critical tokens for boosting factuality of large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文参考訳（メタデータ） (2024-02-28T01:53:37Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文参考訳（メタデータ） (2023-05-09T14:00:15Z)
Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文参考訳（メタデータ） (2022-11-20T05:46:29Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文参考訳（メタデータ） (2022-07-21T07:35:18Z)
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文参考訳（メタデータ） (2022-04-12T14:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。