論文の概要: Using Large Language Models to Support High Volume Application Review for an Undergraduate Research Program
- arxiv url: http://arxiv.org/abs/2606.05564v1
- Date: Thu, 04 Jun 2026 01:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.47111
- Title: Using Large Language Models to Support High Volume Application Review for an Undergraduate Research Program
- Title(参考訳): 大規模言語モデルを用いた大学院研究プログラムの大規模アプリケーションレビュー支援
- Authors: Varun Aggarwal, Kay Kobak, John Howarter,
- Abstract要約: このワーク・イン・プログレス・ペーパーでは、パーデュー大学におけるSURF 2026サイクルに対する約1,200人の学生の目的条件(SoP)の評価を支援するために、大規模言語モデル(LLM)ベースのツールの開発と初期展開について述べる。
このワークフローはOpenAI GPTモデル(GPT-4o、GPT-5-mini、GPT-5.2)を使用し、6つのサブカテゴリにまたがる構造化ルーブリックを使用しており、それぞれ0-3スケールでスコア付けされている。
GPT-5.2を使用して1200 SoPのフルバッチを約4.6時間で処理し、平均14秒で処理した。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Undergraduate research programs such as the Summer Undergraduate Research Fellowship (SURF) at Purdue University receive thousands of applications every year, requiring significant time and effort for program staff to evaluate each submission consistently and within tight timelines. This work-in-progress paper describes the development and initial deployment of a large language model (LLM)-based tool to assist in the evaluation of approximately 1,200 student Statements of Purpose (SoPs) for the SURF 2026 cycle at Purdue University. The workflow utilizes OpenAI GPT models (GPT-4o, GPT-5-mini, and GPT-5.2) and uses a structured rubric across six subcategories, each scored on a 0-3 scale. A few SoPs, graded by program staff, were used to tune the model responses. The model prompt was designed to generate both numerical scores, rationales (including positive and negative aspects) and short excerpts from each submission. Using GPT-5.2, the full batch of 1,200 SoPs was processed in approximately 4.6 hours of compute time, averaging roughly 14 seconds per SoP (with per-SoP timing varying with SoP length, which ranged from 500 to 2,000 words). Notable differences in rubric adherence were observed across model versions, with GPT-5.2 adhering most closely. Disagreement in model scores was more pronounced for lower-scoring submissions. The LLM outputs replicated the role previously played by distributed human graders, providing the program coordinator with scored and rationale-annotated outputs for the entire applicant pool. The program coordinator then reviewed these outputs alongside each applicant's SoP, applying the same downstream office criteria used in prior SURF cycles, to produce a shortlist of strong candidates. This coordinator review was completed in approximately 4 hours, compared to the multi-week coordination effort required in prior program cycles.
- Abstract(参考訳): プルデュー大学の夏季大学院研究フェローシップ(SURF)のような大学院研究プログラムは、毎年何千ものアプリケーションを受け取り、プログラムスタッフが各応募を一貫して、タイトなタイムライン内で評価するのにかなりの時間と労力を要する。
このワーク・イン・プログレス・ペーパーでは、パーデュー大学におけるSURF 2026サイクルに対する約1,200人の学生の目的条件(SoP)の評価を支援するために、大規模言語モデル(LLM)ベースのツールの開発と初期展開について述べる。
このワークフローはOpenAI GPTモデル(GPT-4o、GPT-5-mini、GPT-5.2)を使用し、6つのサブカテゴリにまたがる構造化ルーブリックを使用しており、それぞれ0-3スケールでスコア付けされている。
プログラムスタッフによって評価されたいくつかのSoPは、モデル応答の調整に使用された。
モデルプロンプトは、各提案から数値スコア、有理性(正および負の側面を含む)、短い抜粋の両方を生成するように設計された。
GPT-5.2を使用すると、1200 SoPのフルバッチはおよそ4.6時間で処理され、SoPあたり平均14秒(SoPの長さは500から2,000ワード)で処理された。
GPT-5.2が最も密着したモデルでは、ゴム接着の顕著な相違が観察された。
モデルスコアの劣化は、より低いスコアの入力に対して顕著であった。
LLM出力は、以前に分散されたヒトグレードラーが果たした役割を再現し、プログラムコーディネータに、応募者プール全体に対して得点と合理化の出力を提供する。
プログラムコーディネータは、各応募者のSOPと共にこれらの出力をレビューし、以前のSURFサイクルで使用される下流のオフィス基準を適用して、強い候補者のショートリストを作成した。
このコーディネータのレビューは約4時間で完了した。
関連論文リスト
- A systematic comparison of Large Language Models for automated assignment assessment in programming education: Exploring the importance of architecture and vendor [0.0]
本研究は,現代大規模言語モデル (LLM) のプログラム代入の自動段階付けにおいて,大規模・横比較を行った最初の事例である。
モデル間でのグルーピングパターンの一貫性とクラスタリングについて,グルーピングの分布,平均スコアと変動率の違いから分析した。
すべてのモデルでは、クラス内相関係数によって測定された内部一致度が高く、モデルコンセンサスは人間教師の学級との適度な一致しか示さなかった。
論文 参考訳(メタデータ) (2025-09-30T16:29:35Z) - Benchmarking GPT-5 for biomedical natural language processing [17.663813433200122]
本研究は,GPT-5とGPT-4oを5つの中核生物医学的NLPタスクで評価するための統一ベンチマークを拡張した。
GPT-5 は一貫して GPT-4o を上回り、推論集約データセットで最大の利益を得た。
論文 参考訳(メタデータ) (2025-08-28T13:06:53Z) - LCFO: Long Context and Long Form Output Dataset and Benchmarking [50.44679440167169]
LCFO(Long Context and Form Output)ベンチマークは、段階的な要約と要約拡張機能を評価するための新しいフレームワークである。
LCFOは、長さの異なる3つの要約を持つ長い入力文書(平均長5k語)から構成される。
GPT-4o-miniは,要約処理と要約処理の両方において,自動システム間で最高の人間のスコアを得る。
論文 参考訳(メタデータ) (2024-12-11T10:35:45Z) - Large Language Models for Semantic Monitoring of Corporate Disclosures:
A Case Study on Korea's Top 50 KOSPI Companies [0.08192907805418582]
OpenAIのGPT-3.5-turboやGPT-4のような最先端の言語モデルは、複雑なタスクを自動化する前例のない機会を提供する。
本研究は、韓国の文脈における企業情報開示のセマンティック分析におけるこれらのモデルの有効性について考察する。
論文 参考訳(メタデータ) (2023-09-01T01:51:28Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - PPL Bench: Evaluation Framework For Probabilistic Programming Languages [2.1847130835757183]
PPL Benchは、様々な統計モデルに基づいて確率型プログラミング言語(PPL)を評価するための新しいベンチマークである。
このベンチマークには、多くのモデルのデータ生成と評価コードと、いくつかの一般的なPPLの実装が含まれている。
ベンチマークコードとPPLの実装はすべてGithubで公開されている。
論文 参考訳(メタデータ) (2020-10-17T23:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。