論文の概要: Graders should cheat: privileged information enables expert-level automated evaluations
- arxiv url: http://arxiv.org/abs/2502.10961v1
- Date: Sun, 16 Feb 2025 02:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:48.283241
- Title: Graders should cheat: privileged information enables expert-level automated evaluations
- Title(参考訳): グレーダーは浮気すべき:特権情報によって専門家レベルの自動評価が可能になる
- Authors: Jin Peng Zhou, Sébastien M. R. Arnold, Nan Ding, Kilian Q. Weinberger, Nan Hua, Fei Sha,
- Abstract要約: 自動評価言語モデル(LM)は、評価プロセスとそれに関連するコストを加速する魅力的な方法である。
しかし、どちらのモデルの能力の限界を超えている問題を評価するために、候補者のLMよりも弱いであろうグレーダーLMをどうやって信頼できるだろうか?
地道なソリューションや問題固有のガイドラインなどの特権情報を提供することによって,このようなフロンティア問題に対する自動評価が向上することを示す。
- 参考スコア(独自算出の注目度): 38.7900980845564
- License:
- Abstract: Auto-evaluating language models (LMs), i.e., using a grader LM to evaluate the candidate LM, is an appealing way to accelerate the evaluation process and the cost associated with it. But this presents a paradox: how can we trust the grader LM, which is presumably weaker than the candidate LM, to assess problems that are beyond the frontier of the capabilities of either model or both? For instance, today's LMs struggle on graduate-level physics and Olympiad-level math, making them unreliable graders in these domains. We show that providing privileged information -- such as ground-truth solutions or problem-specific guidelines -- improves automated evaluations on such frontier problems. This approach offers two key advantages. First, it expands the range of problems where LMs graders apply. Specifically, weaker models can now rate the predictions of stronger models. Second, privileged information can be used to devise easier variations of challenging problems which improves the separability of different LMs on tasks where their performance is generally low. With this approach, general-purpose LM graders match the state of the art performance on RewardBench, surpassing almost all the specially-tuned models. LM graders also outperform individual human raters on Vibe-Eval, and approach human expert graders on Olympiad-level math problems.
- Abstract(参考訳): 自動評価言語モデル(LM)、すなわち、グレーダLMを用いて候補LMを評価することは、評価プロセスとそれに関連するコストを加速する魅力的な方法である。
しかし、このパラドックスはどのようにして、候補のLMよりも弱いであろうグレーダーLMを信頼して、どちらのモデルの能力のフロンティアを超越した問題を評価することができるのか?
例えば、今日のLMは、大学院レベルの物理学とオリンピアードレベルの数学に苦しむため、これらの領域では信頼性が低い。
地道なソリューションや問題固有のガイドラインなどの特権情報を提供することによって,このようなフロンティア問題に対する自動評価が向上することを示す。
このアプローチには2つの大きな利点があります。
まず、LMグレーダが適用される問題の範囲を広げる。
具体的には、より弱いモデルはより強いモデルの予測を評価することができる。
第二に、特権情報を利用することで、一般に性能が低いタスクにおいて、異なるLMの分離性を改善する難題の容易なバリエーションを考案することができる。
このアプローチにより、汎用LMグレーダはRewardBenchの最先端性能と一致し、ほとんどの特別設計モデルを上回った。
LMグレーダーは、Vibe-Evalで個々の人間ラッカーよりも優れており、オリンピアードレベルの数学問題で人間の専門家にアプローチしている。
関連論文リスト
- MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants [16.932009464531742]
本稿では,HumanRankEvalという新しい自動評価タスクを提案する。
大規模で多様で高品質な質問セットで構成されており、それぞれが人間によって書かれたいくつかの回答がある。
HREは人間の判断とよく相関し,特に指導指導後のモデル変化に応答することを示す。
論文 参考訳(メタデータ) (2024-05-15T08:47:26Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。