論文の概要: Lexical Bundle Frequency as a Construct-Relevant Candidate Feature in Automated Scoring of L2 Academic Writing
- arxiv url: http://arxiv.org/abs/2504.08537v1
- Date: Fri, 11 Apr 2025 13:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:15.866706
- Title: Lexical Bundle Frequency as a Construct-Relevant Candidate Feature in Automated Scoring of L2 Academic Writing
- Title(参考訳): L2アカデミックライティングの自動スコーリングにおける構成関連候補としての語彙束周波数
- Authors: Burak Senel,
- Abstract要約: 本研究は,独立した筆記タスクのためのASモデルにLB周波数特徴を組み込むことによる影響を検証した。
その結果,LB頻度と習熟度の関係は有意であったが,概して小さかった。
LB強化モデルは、ヒトのラッカーとの合意を改善した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automated scoring (AS) systems are increasingly used for evaluating L2 writing, but require ongoing refinement for construct validity. While prior work suggested lexical bundles (LBs) - recurrent multi-word sequences satisfying certain frequency criteria - could inform assessment, their empirical integration into AS models needs further investigation. This study tested the impact of incorporating LB frequency features into an AS model for TOEFL independent writing tasks. Analyzing a sampled subcorpus (N=1,225 essays, 9 L1s) from the TOEFL11 corpus, scored by ETS-trained raters (Low, Medium, High), 3- to 9-word LBs were extracted, distinguishing prompt-specific from non-prompt types. A baseline Support Vector Machine (SVM) scoring model using established linguistic features (e.g., mechanics, cohesion, sophistication) was compared against an extended model including three aggregate LB frequency features (total prompt, total non-prompt, overall total). Results revealed significant, though generally small-effect, relationships between LB frequency (especially non-prompt bundles) and proficiency (p < .05). Mean frequencies suggested lower proficiency essays used more LBs overall. Critically, the LB-enhanced model improved agreement with human raters (Quadratic Cohen's Kappa +2.05%, overall Cohen's Kappa +5.63%), with notable gains for low (+10.1% exact agreement) and medium (+14.3% Cohen's Kappa) proficiency essays. These findings demonstrate that integrating aggregate LB frequency offers potential for developing more linguistically informed and accurate AS systems, particularly for differentiating developing L2 writers.
- Abstract(参考訳): 自動スコアリング (AS) システムは、L2の書き込みを評価するために使われることが多いが、構築の妥当性を向上するためには改良が進行中である。
先行研究では、レキシカルバンドル (LBs) - 特定の周波数基準を満たす連続した複数単語列 - が評価を知らせる可能性があるが、それらのASモデルへの経験的統合にはさらなる調査が必要である。
本研究では,TOEFL独立書き込みタスクのASモデルにLB周波数特徴を組み込むことによる影響を検証した。
TOEFL11コーパスから採取したサンプルサブコーパス(N=1,225エッセイ,9L1s)をETS学習型ラッカー(Low, Medium, High)で抽出し,非プロンプト型と即時特異的に区別した3~9ワードLBを抽出した。
確立された言語的特徴(例えば,力学,凝集,高度化)を用いたベースライン支援ベクトルマシン(SVM)スコアリングモデルを,3つの総合的なLB周波数特徴(トータルプロンプト,全非プロンプト,総総総数)を含む拡張モデルと比較した。
その結果,LB周波数(特に非プロンプト束)と習熟度(p< .05。
平均周波数は、低習熟度エッセイが全体でより多くのLBを使用したことを示唆した。
批判的に言えば、LB-enhanced モデルは人間のラッパーとの合意を改善し(Quadratic Cohen's Kappa +2.05%、全体のCohen's Kappa +5.63%)、低(+10.1%の正確な合意)と中(+14.3%のCohen's Kappa)の熟練度エッセイで顕著な利益を得た。
これらの結果から,総合的なLB周波数の統合は,より言語学的に理解され,正確なASシステムの開発,特にL2文字の識別に有用であることが示唆された。
関連論文リスト
- FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。
レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。
既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文 参考訳(メタデータ) (2024-06-27T01:37:57Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science [27.727207443432278]
本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
論文 参考訳(メタデータ) (2023-05-23T17:48:21Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。