論文の概要: Toward Trustworthy Difficulty Assessments: Large Language Models as Judges in Programming and Synthetic Tasks
- arxiv url: http://arxiv.org/abs/2511.18597v1
- Date: Sun, 23 Nov 2025 19:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.918719
- Title: Toward Trustworthy Difficulty Assessments: Large Language Models as Judges in Programming and Synthetic Tasks
- Title(参考訳): 信頼に足る難易度評価に向けて:プログラミングおよび合成タスクの審査員としての大規模言語モデル
- Authors: H. M. Shadman Tabib, Jaber Ahmed Deedar,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語とコード生成において印象的な能力を示している。
LLMは、モデル出力と学習活動の自動判断として、ますます多くデプロイされている。
自然言語の難易度評価器として純粋に使用される GPT-4o と,明示的な数値的特徴とテキスト的特徴を訓練した解釈可能な Light-GBM アンサンブルを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in natural language and code generation, and are increasingly deployed as automatic judges of model outputs and learning activities. Yet, their behavior on structured tasks such as predicting the difficulty of competitive programming problems remains under-explored. We conduct a systematic comparison of GPT-4o, used purely as a natural-language difficulty assessor, against an interpretable Light-GBM ensemble trained on explicit numeric and textual features. On a dataset of 1,825 LeetCode problems labeled Easy, Medium, or Hard, LightGBM attains 86% accuracy, whereas GPT-4o reaches only 37.75%. Detailed analyses, including confusion matrices and SHAP-based interpretability, show that numeric constraints -- such as input size limits and acceptance rates -- play a crucial role in separating Hard problems from easier ones. By contrast, GPT-4o often overlooks these cues and exhibits a strong bias toward simpler categories. We further probe GPT-4o through a synthetic Hard-problem generation protocol. Surprisingly, GPT-4o labels almost all of its own synthetic Hard problems as Medium, contradicting its tendency to downgrade real Hard problems to Easy. Our findings connect to recent work on LLMs-as-judges and automatic difficulty estimation in programming and education, and highlight concrete failure modes that must be addressed before LLM-based judges can be considered trustworthy in competitive programming, educational platforms, or reinforcement-learning pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語とコード生成において印象的な能力を示しており、モデル出力と学習アクティビティの自動判断として、ますます多くデプロイされている。
しかし、競合するプログラミング問題の難しさを予測するような構造化されたタスクにおけるそれらの振る舞いは、まだ解明されていない。
GPT-4oを自然言語の難易度評価器として用いて,明示的な数値的特徴とテキスト的特徴を訓練した解釈可能なLight-GBMアンサンブルに対して,系統的に比較を行った。
Easy, Medium, or Hardとラベル付けされた1,825のLeetCodeのデータセットでは、LightGBMの精度は86%、GPT-4oは37.75%である。
混乱行列やSHAPに基づく解釈可能性などの詳細な分析は、入力サイズ制限や受け入れ率といった数値的な制約が、ハード問題をより簡単なものから分離する上で重要な役割を担っていることを示している。
対照的に、GPT-4oはしばしばこれらの手がかりを見落とし、より単純なカテゴリに対して強い偏見を示す。
我々はさらに、合成ハードプロブレム生成プロトコルを通じてGPT-4oを探索する。
驚くべきことに、GPT-4oは自身の合成ハードのほとんど全てをMediumとラベル付けしており、実際のハードの問題を簡易にダウングレードする傾向に矛盾している。
我々の研究は、近年のLSMs-as-judgesの研究と、プログラミングと教育における自動難易度推定と結びつき、LSMベースの審査員が競合プログラミング、教育プラットフォーム、強化学習パイプラインにおいて信頼できると判断される前に対処しなければならない具体的な障害モードを強調している。
関連論文リスト
- LLMs Encode How Difficult Problems Are [4.990590622073335]
大規模言語モデルが人間の判断に沿う方法で問題難易度を符号化するかどうかを検討する。
我々は60のモデルで層とトークンの位置の線形プローブを訓練し、Easy2HardBenchの数学的および符号化部分集合を評価した。
論文 参考訳(メタデータ) (2025-10-20T22:48:23Z) - Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。
2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。
我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文 参考訳(メタデータ) (2025-06-28T17:18:23Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - QUAD-LLM-MLTC: Large Language Models Ensemble Learning for Healthcare Text Multi-Label Classification [4.8342038441006805]
収集された医療用テキストデータのエスカレート量は、テキスト分類を自動化する上でユニークな課題である。
従来の機械学習モデルは、表現されたトピックの配列を完全にキャプチャできないことが多い。
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて顕著な効果を示した。
論文 参考訳(メタデータ) (2025-02-20T01:46:12Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。