論文の概要: Long Context Automated Essay Scoring with Language Models
- arxiv url: http://arxiv.org/abs/2509.10417v1
- Date: Fri, 12 Sep 2025 17:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.176362
- Title: Long Context Automated Essay Scoring with Language Models
- Title(参考訳): 言語モデルを用いたLong Context Automated Essay Scoring
- Authors: Christopher Ormerod, Gitit Kehat,
- Abstract要約: これらのモデルをAutomated Essay Scoringに使用する場合、この問題に対処するための一般的なアプローチは、入力テキストを切り捨てることである。
これは、スコアリングルーブリックの組織的要素を完全に捕捉し評価するモデルの能力を損なうため、深刻な妥当性の懸念を生じさせる。
我々は、Kaggle ASAP 2.0データセットを用いて、標準トランスフォーマーアーキテクチャのアーキテクチャ変更を組み込んだいくつかのモデルを評価し、これらの制限を克服する。
- 参考スコア(独自算出の注目度): 0.34376560669160394
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer-based language models are architecturally constrained to process text of a fixed maximum length. Essays written by higher-grade students frequently exceed the maximum allowed length for many popular open-source models. A common approach to addressing this issue when using these models for Automated Essay Scoring is to truncate the input text. This raises serious validity concerns as it undermines the model's ability to fully capture and evaluate organizational elements of the scoring rubric, which requires long contexts to assess. In this study, we evaluate several models that incorporate architectural modifications of the standard transformer architecture to overcome these length limitations using the Kaggle ASAP 2.0 dataset. The models considered in this study include fine-tuned versions of XLNet, Longformer, ModernBERT, Mamba, and Llama models.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、一定の最大長のテキストを処理するためにアーキテクチャ的に制約される。
高校生によって書かれたエッセイは、多くの人気のあるオープンソースモデルで許容される最大長を超えることが多い。
これらのモデルをAutomated Essay Scoringに使用する場合、この問題に対処するための一般的なアプローチは、入力テキストを切り捨てることである。
これは、スコアリングルーブリックの組織的要素を完全に把握し、評価するモデルの能力を損なうため、深刻な妥当性の懸念を生じさせる。
本研究では、Kaggle ASAP 2.0データセットを用いて、標準トランスフォーマーアーキテクチャのアーキテクチャ変更を組み込んだモデルを評価し、これらの制限を克服する。
本研究で検討されたモデルには、XLNet、Longformer、ModernBERT、Mamba、Llamaモデルの微調整版が含まれる。
関連論文リスト
- Summarizing long regulatory documents with a multi-step pipeline [2.2591852560804675]
長い規則文を要約するための2段階アーキテクチャの有効性は、使用するモデルによって異なることを示す。
コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。
論文 参考訳(メタデータ) (2024-08-19T08:07:25Z) - Leveraging BERT Language Model for Arabic Long Document Classification [0.47138177023764655]
長いアラビア文書を分類する2つのモデルを提案する。
どちらのモデルも、このタスクでLongformerとRoBERTを2つの異なるデータセットで上回ります。
論文 参考訳(メタデータ) (2023-05-04T13:56:32Z) - A Survey on Long Text Modeling with Transformers [106.50471784909212]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。
長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。
本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文 参考訳(メタデータ) (2023-02-28T11:34:30Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Text Generation with Text-Editing Models [78.03750739936956]
このチュートリアルは、テキスト編集モデルと最先端のアプローチの概要を提供する。
生産化に関わる課題と、これらのモデルが幻覚や偏見を軽減するためにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2022-06-14T17:58:17Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。