論文の概要: The Impact of LLM Self-Consistency and Reasoning Effort on Automated Scoring Accuracy and Cost
- arxiv url: http://arxiv.org/abs/2604.26954v1
- Date: Fri, 03 Apr 2026 14:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.241104
- Title: The Impact of LLM Self-Consistency and Reasoning Effort on Automated Scoring Accuracy and Cost
- Title(参考訳): LLM自己整合性と推論が自動スコーリング精度とコストに及ぼす影響
- Authors: Scott Frohn,
- Abstract要約: 高校数学における会話に基づく評価項目の自己整合性と推論の取り組みについて検討した。
温度サンプリングは決定的呼び出しよりも精度を著しく向上させたが、アンサンブルサイズの増加は有意な利得を得られなかった。
効率のフロンティア分析では、Gemini 3.1 Pro Previewを最も正確だがコストのかかる設定として低推理で特定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strategic model selection and reasoning settings are more effective than ensembling for optimizing automated scoring with large language models (LLMs). We examined self-consistency (intra-model majority voting) and reasoning effort for scoring conversation-based assessment items in high school mathematics, evaluating 900 student conversations against human-scored ground truths using frontier and low-cost models from OpenAI and Google. Temperature sampling significantly improved accuracy over deterministic calls, but increasing ensemble size (j = 1 to 7) produced no significant gains. Higher reasoning effort showed a significant positive linear trend with scoring accuracy, though the benefit varied by model family. An efficiency frontier analysis identified Gemini 3.1 Pro Preview at low reasoning as the most accurate but costly configuration; GPT-5.4 Nano and Mini with no reasoning offered the best cost-performance balance.
- Abstract(参考訳): 戦略モデルの選択と推論設定は、大規模言語モデル(LLM)による自動スコアリングの最適化よりも効果的である。
高校生数学における自己整合性(モデル内多数決)と会話に基づく評価項目の採点に対する推論の取り組みについて,OpenAIとGoogleのフロンティアモデルと低コストモデルを用いて,900人の学生による地上の真実に対する会話を評価した。
温度サンプリングは決定的呼び出しよりも精度が向上したが, アンサンブルサイズ(j = 1 - 7)の増大は有意な利得は得られなかった。
評価精度は有意な正の線形傾向を示したが, その利点はモデル群によって異なっていた。
効率のフロンティア分析では、ジェミニ3.1 Pro Previewを低推理で、最も正確だがコストのかかる構成とし、理由のないGPT-5.4 NanoとMiniは最高のコストと性能のバランスを提供した。
関連論文リスト
- Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - When Small Models Are Right for Wrong Reasons: Process Verification for Trustworthy Agents [0.0]
小さな言語モデルからの正しい回答の50~69%は、根本的な欠陥のある推論を含んでいる。
本稿では,レイタ間合意を実質的に検証したプロセスベース計量であるReasoning Integrity Score(RIS)を紹介する。
メタ認知は十分なモデルキャパシティを伴わずに混乱を増幅するのに対し、RAGは外部のエビデンスに基礎を置き、エラーを7.6%削減する。
論文 参考訳(メタデータ) (2026-01-01T23:54:15Z) - Simulated Self-Assessment in Large Language Models: A Psychometric Approach to AI Self-Efficacy [0.0]
我々は,10大言語モデル(LLM)の自己評価をシミュレートするために,10項目の総合自己効力尺度を適用した。
反応は、反復的な管理とランダム化されたアイテム注文の間で非常に安定していた。
モデルは条件によって異なる自己効力レベルを示し、スコアは人間の基準よりも低かった。
論文 参考訳(メタデータ) (2025-11-25T03:24:11Z) - Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness [12.513874407270142]
我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
論文 参考訳(メタデータ) (2025-09-09T18:36:02Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。