論文の概要: From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2409.04168v1
- Date: Fri, 6 Sep 2024 10:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:05:19.677079
- Title: From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks
- Title(参考訳): 計算から判断へ:数学的推論課題におけるLLM審査員の検討
- Authors: Andreas Stephan, Dawei Zhu, Matthias Aßenmacher, Xiaoyu Shen, Benjamin Roth,
- Abstract要約: 数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
- 参考スコア(独自算出の注目度): 11.01213914485374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To reduce the need for human annotations, large language models (LLMs) have been proposed as judges of the quality of other candidate models. LLM judges are typically evaluated by measuring the correlation with human judgments on generation tasks such as summarization or machine translation. In contrast, we study LLM judges on mathematical reasoning tasks. These tasks require multi-step reasoning, and the correctness of their solutions is verifiable, enabling a more objective evaluation. We perform a detailed performance analysis and find that the used judges are mostly unable to improve task performance but are able to pick the better model. Our analysis uncovers a strong correlation between judgment performance and the candidate model task performance. We observe that judges tend to choose the model of higher quality even if its answer is incorrect. Further, we show that it is possible to use statistics, such as the task performances of the individual models, to predict judgment performance. In an ablation, we either swap or mask the candidate answers and observe that judges often keep the original judgment, providing evidence that judges incorporate writing style in their judgments. In summary, we find that regularities in the judgments are quantifiable using statistical measures and provide various angles on exploiting them.
- Abstract(参考訳): 人間のアノテーションの必要性を減らすため、他の候補モデルの質を判断する手段として、大型言語モデル(LLM)が提案されている。
LLM審査員は、要約や機械翻訳などの生成タスクにおける人間の判断との相関を測定することで評価される。
対照的に、数学的推論タスクにおけるLCMの判断について検討する。
これらのタスクは多段階の推論を必要とし、それらの解の正しさは検証可能であり、より客観的な評価を可能にする。
我々は、詳細な性能分析を行い、使用済みの審査員は、主にタスクパフォーマンスを改善することができないが、より良いモデルを選択することができることを発見した。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
審査員は、たとえその答えが間違っているとしても、より高い品質のモデルを選択する傾向があることを観察する。
さらに,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
アブレーションでは、候補者の答えを交換するか、マスクするか、裁判官が元の判断をしばしば保持していることを観察し、裁判官がその判断に筆記様式を取り入れている証拠を提供する。
要約すると, 判定の正則性は統計測度を用いて定量化され, 活用の角度は様々である。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。