論文の概要: Estimating problem difficulty without ground truth using Large Language Model comparisons
- arxiv url: http://arxiv.org/abs/2512.14220v1
- Date: Tue, 16 Dec 2025 09:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.654207
- Title: Estimating problem difficulty without ground truth using Large Language Model comparisons
- Title(参考訳): 大規模言語モデルの比較による問題難易度の推定
- Authors: Marthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis,
- Abstract要約: そこで本研究では,LLMとLLMを比較し,問題の難易度を推定する手法を提案する。
LLMはペアの難易度比較を行い、Bradley-Terryスコアは結果に基づいて計算される。
我々の研究は、時間を要する人間のアノテーションと合成データ生成を置き換えるための重要なステップである。
- 参考スコア(独自算出の注目度): 4.599673637363014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in the finetuning of large language models (LLMs) have significantly improved their performance on established benchmarks, emphasizing the need for increasingly difficult, synthetic data. A key step in this data generation pipeline is a method for estimating problem difficulty. Current approaches, such as human calibration or performance-based scoring, fail to generalize to out-of-distribution problems, i.e. problems currently unsolvable by humans and LLMs, because they are not scalable, time-consuming, and ground truth dependent. Therefore, we propose a new method for estimating problem difficulty, LLM compare, that addresses these limitations. An LLM performs pairwise difficulty comparisons, and then Bradley-Terry scores are computed based on the outcomes. To validate our method, we first propose a conceptual framework that positions existing approaches on three orthogonal planes--construction, scale and dependence--identifying which quadrants a measure needs to occupy to score out-of-distribution problems. LLM compare naturally occupies all desirable quadrants as the first measure that is continuous and dynamic, model-agnostic and independent of ground truth information. As a second validation, we show that LLM compare demonstrates strong alignment with human annotations: Pearson $r \geq 0.80$ for $n=1876$. Thirdly, we show that LLM compare is robust to hallucinations, with less than $6\%$ degradation in Pearson correlation for $10\%$ noise injection. Our work represents a significant step towards replacing time-consuming human annotations and synthetic data generation, and will be an important driver for curriculum design, model evaluation, and AI-assisted research ideation.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整の最近の進歩は、確立されたベンチマークの性能を大幅に向上させ、ますます困難で合成的なデータの必要性を強調している。
このデータ生成パイプラインにおける重要なステップは、問題の難易度を推定する方法である。
人間のキャリブレーションやパフォーマンスベースのスコアリングのような現在のアプローチでは、分散外問題、すなわち現在人間やLLMによって解決できない問題への一般化に失敗する。
そこで本研究では,これらの制約に対処する問題難易度をLLMと比較する手法を提案する。
LLMはペアの難易度比較を行い、Bradley-Terryスコアは結果に基づいて計算される。
提案手法を検証するために,我々はまず,既存のアプローチを3つの直交平面(構成,スケール,依存)に配置する概念的枠組みを提案する。
LLMは、すべての望ましい四分儀を、連続的かつ動的でモデルに依存しない、基底真理情報に依存しない最初の尺度として自然に占める。
Pearson $r \geq 0.80$ for $n=1876$。
第3に、LLMの比較は幻覚に対して堅牢であり、Pearson相関の6\%以下、ノイズ注入の10\%以下であることを示す。
私たちの研究は、時間を要する人間のアノテーションや合成データ生成を置き換えるための重要なステップであり、カリキュラム設計、モデル評価、AI支援研究のアイデアのための重要な原動力となるでしょう。
関連論文リスト
- LLMs Encode How Difficult Problems Are [4.990590622073335]
大規模言語モデルが人間の判断に沿う方法で問題難易度を符号化するかどうかを検討する。
我々は60のモデルで層とトークンの位置の線形プローブを訓練し、Easy2HardBenchの数学的および符号化部分集合を評価した。
論文 参考訳(メタデータ) (2025-10-20T22:48:23Z) - The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations [33.65540900920885]
大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。
本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:38:41Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms [0.0]
フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。
本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
論文 参考訳(メタデータ) (2025-04-09T00:04:07Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Online Cascade Learning for Efficient Inference over Streams [9.516197133796437]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。
この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。
我々は,オンラインでカスケードを学習するタスクを模倣学習問題として定式化する。
論文 参考訳(メタデータ) (2024-02-07T01:46:50Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。