Fugu-MT 論文翻訳(概要): Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

論文の概要: Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

arxiv url: http://arxiv.org/abs/2504.08804v1
Date: Wed, 09 Apr 2025 00:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 05:49:48.24937
Title: Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms
Title（参考訳）: 大規模言語モデルと木に基づく機械学習アルゴリズムを用いた項目難読度の推定
Authors: Pooya Razavi, Sonya J. Powers,
Abstract要約: フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Estimating item difficulty through field-testing is often resource-intensive and time-consuming. As such, there is strong motivation to develop methods that can predict item difficulty at scale using only the item content. Large Language Models (LLMs) represent a new frontier for this goal. The present research examines the feasibility of using an LLM to predict item difficulty for K-5 mathematics and reading assessment items (N = 5170). Two estimation approaches were implemented: (a) a direct estimation method that prompted the LLM to assign a single difficulty rating to each item, and (b) a feature-based strategy where the LLM extracted multiple cognitive and linguistic features, which were then used in ensemble tree-based models (random forests and gradient boosting) to predict difficulty. Overall, direct LLM estimates showed moderate to strong correlations with true item difficulties. However, their accuracy varied by grade level, often performing worse for early grades. In contrast, the feature-based method yielded stronger predictive accuracy, with correlations as high as r = 0.87 and lower error estimates compared to both direct LLM predictions and baseline regressors. These findings highlight the promise of LLMs in streamlining item development and reducing reliance on extensive field testing and underscore the importance of structured feature extraction. We provide a seven-step workflow for testing professionals who would want to implement a similar item difficulty estimation approach with their item pool.
Abstract（参考訳）: フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。そのため,項目内容のみを用いて大規模に項目の難易度を予測する手法の開発に強い動機付けがある。大きな言語モデル(LLM)は、この目標の新たなフロンティアである。本研究は,K-5数学および読解評価項目(N = 5170)の項目難易度予測にLLMを用いることの可能性を検討する。 2つの推定手法が実装された。 (a) LLMに各項目に1つの難易度を割り当てるよう促した直接推定方法 b) LLMが複数の認知的・言語的特徴を抽出した特徴に基づく戦略で, 難易度を予測するため, アンサンブルツリーベースモデル(ランダム林, 勾配増進)で使用した。総じて、LSMの直接推定は、真の項目難易度と中程度から強い相関を示した。しかし、その精度は成績によって変化し、早期の成績は良くなかった。対照的に, 特徴量に基づく手法では, r = 0.87 の相関が強く, 直接LLM予測とベースライン回帰器の相関が低かった。これらの知見は,広範囲なフィールドテストへの依存度を低減し,構造化特徴抽出の重要性を浮き彫りにした。同じようなアイテムの難易度推定アプローチを、アイテムプールで実装したいプロをテストするための7ステップのワークフローを提供します。

関連論文リスト

Beyond Accuracy: Characterizing Code Comprehension Capabilities in (Large) Language Models [4.841487377596519]
本稿では,Large Language Modelsのコード理解性能が従来の人間中心のソフトウェアメトリクスと一致しているかを検討する。コード理解をバイナリインプット・アウトプット整合性タスクとして再編成する診断フレームワークを導入する。
論文参考訳（メタデータ） (2026-01-19T10:58:24Z)
FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文参考訳（メタデータ） (2026-01-16T14:08:51Z)
Take Out Your Calculators: Estimating the Real Difficulty of Question Items with LLM Student Simulations [36.23612429926861]
実世界の学生を対象とした数学質問の難易度を評価するため,オープンソースの大規模言語モデル(LLM)の予測値について検討した。我々は,4年生,8年生,12年生の「教室」をシミュレートし,LLMを様々な習熟度を持つロールプレイングの学生に促す。我々は,4級,8級,12級の相関関係を0.75,0.76,0.82まで観測した。
論文参考訳（メタデータ） (2026-01-15T00:25:01Z)
The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文参考訳（メタデータ） (2025-09-16T09:38:41Z)
Measuring Scalar Constructs in Social Science with LLMs [48.92998035333579]
大規模言語モデルにおけるスカラー構造の測定手法の評価を行った。 LLMにスコアを直接出力させるよりも、ペアワイズ比較の方が優れた測定結果が得られることが分かりました。訓練ペアを1,000個も持たない小型モデルは、誘導LDMの性能にマッチまたは超えることができる。
論文参考訳（メタデータ） (2025-09-03T08:19:13Z)
Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文参考訳（メタデータ） (2025-06-20T13:21:14Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。 LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文参考訳（メタデータ） (2024-07-16T11:58:54Z)
Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing [39.6507632134755]
本稿では,測定理論における適応試験法に基づく新しい生成的進化試験手法であるGAAを提案する。 GETAはモデル能力に適したテスト項目を動的に生成することで、LLMの根底にある道徳的境界を探索する。 GETAは、アイテムの難易度とモデル値の整合性の連成分布を学習することでLLMと共進化する。
論文参考訳（メタデータ） (2024-06-20T11:51:00Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文参考訳（メタデータ） (2024-01-18T08:12:23Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Benchmarking Causal Study to Interpret Large Language Models for Source Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文参考訳（メタデータ） (2023-08-23T20:32:12Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。