論文の概要: From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2409.04168v1
- Date: Fri, 6 Sep 2024 10:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:05:19.677079
- Title: From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks
- Title(参考訳): 計算から判断へ:数学的推論課題におけるLLM審査員の検討
- Authors: Andreas Stephan, Dawei Zhu, Matthias Aßenmacher, Xiaoyu Shen, Benjamin Roth,
- Abstract要約: 数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
- 参考スコア(独自算出の注目度): 11.01213914485374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To reduce the need for human annotations, large language models (LLMs) have been proposed as judges of the quality of other candidate models. LLM judges are typically evaluated by measuring the correlation with human judgments on generation tasks such as summarization or machine translation. In contrast, we study LLM judges on mathematical reasoning tasks. These tasks require multi-step reasoning, and the correctness of their solutions is verifiable, enabling a more objective evaluation. We perform a detailed performance analysis and find that the used judges are mostly unable to improve task performance but are able to pick the better model. Our analysis uncovers a strong correlation between judgment performance and the candidate model task performance. We observe that judges tend to choose the model of higher quality even if its answer is incorrect. Further, we show that it is possible to use statistics, such as the task performances of the individual models, to predict judgment performance. In an ablation, we either swap or mask the candidate answers and observe that judges often keep the original judgment, providing evidence that judges incorporate writing style in their judgments. In summary, we find that regularities in the judgments are quantifiable using statistical measures and provide various angles on exploiting them.
- Abstract(参考訳): 人間のアノテーションの必要性を減らすため、他の候補モデルの質を判断する手段として、大型言語モデル(LLM)が提案されている。
LLM審査員は、要約や機械翻訳などの生成タスクにおける人間の判断との相関を測定することで評価される。
対照的に、数学的推論タスクにおけるLCMの判断について検討する。
これらのタスクは多段階の推論を必要とし、それらの解の正しさは検証可能であり、より客観的な評価を可能にする。
我々は、詳細な性能分析を行い、使用済みの審査員は、主にタスクパフォーマンスを改善することができないが、より良いモデルを選択することができることを発見した。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
審査員は、たとえその答えが間違っているとしても、より高い品質のモデルを選択する傾向があることを観察する。
さらに,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
アブレーションでは、候補者の答えを交換するか、マスクするか、裁判官が元の判断をしばしば保持していることを観察し、裁判官がその判断に筆記様式を取り入れている証拠を提供する。
要約すると, 判定の正則性は統計測度を用いて定量化され, 活用の角度は様々である。
関連論文リスト
- On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
審査員として機能する様々な大規模言語モデル(LLM)の性能について検討する。
LLMの客観的知識推論のベンチマークとしてTriviaQAを利用する。
Llama-370B と GPT-4 Turbo はどちらも人間に優れた整合性があることが判明した。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。