論文の概要: xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
- arxiv url: http://arxiv.org/abs/2504.10481v1
- Date: Mon, 14 Apr 2025 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 17:19:38.378098
- Title: xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
- Title(参考訳): xVerify: モデル評価を推論する効率的な解答検証器
- Authors: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li,
- Abstract要約: 推論モデル評価のための効率的な答え検証器であるxVerifyを提案する。
xVerifyは同値判定において強い能力を示し、推論モデルによって生成された答えが参照回答と等価であるかどうかを効果的に決定できる。
テストセットと一般化セットの両方で実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと95%を超える精度を達成する。
- 参考スコア(独自算出の注目度): 24.0718130203709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the release of the o1 model by OpenAI, reasoning models adopting slow thinking strategies have gradually emerged. As the responses generated by such models often include complex reasoning, intermediate steps, and self-reflection, existing evaluation methods are often inadequate. They struggle to determine whether the LLM output is truly equivalent to the reference answer, and also have difficulty identifying and extracting the final answer from long, complex responses. To address this issue, we propose xVerify, an efficient answer verifier for reasoning model evaluations. xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions. To train and evaluate xVerify, we construct the VAR dataset by collecting question-answer pairs generated by multiple LLMs across various datasets, leveraging multiple reasoning models and challenging evaluation sets designed specifically for reasoning model assessment. A multi-round annotation process is employed to ensure label accuracy. Based on the VAR dataset, we train multiple xVerify models of different scales. In evaluation experiments conducted on both the test set and generalization set, all xVerify models achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results validate the effectiveness and generalizability of xVerify.
- Abstract(参考訳): OpenAIによるo1モデルのリリースにより、ゆっくりとした思考戦略を採用した推論モデルが徐々に現れている。
このようなモデルによって生成される応答は、複雑な推論、中間ステップ、自己回帰を含むことが多いため、既存の評価手法はしばしば不十分である。
彼らは LLM の出力が参照応答と真に等価かどうかを判断するのに苦労し、また、長い複雑な応答から最終回答を識別して抽出することも困難である。
そこで本研究では,推論モデル評価のための効率的な回答検証手法であるxVerifyを提案する。
xVerifyは同値判定の強い能力を示し、推論モデルによって生成された回答が、様々な種類の客観的な質問に対する参照回答と等価であるかどうかを効果的に決定できる。
xVerify を訓練・評価するために,複数の LLM が生成する質問応答ペアを様々なデータセットにわたって収集し,複数の推論モデルと推論モデル評価用に特別に設計された挑戦的評価セットを活用することにより,VAR データセットを構築した。
ラベルの精度を確保するためにマルチラウンドアノテーションプロセスが使用される。
VARデータセットに基づいて、異なるスケールの複数のxVerifyモデルをトレーニングします。
テストセットと一般化セットの両方で実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと95%を超える精度を達成する。
特に、最小の変種である xVerify-0.5B-I は GPT-4o を除く全ての評価手法を上回り、xVerify-3B-Ib は GPT-4o を超える。
これらの結果は xVerify の有効性と一般化性を検証する。
関連論文リスト
- Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - How Many Ratings per Item are Necessary for Reliable Significance Testing? [7.777020199676859]
機械学習評価に対するほとんどのアプローチは、機械と人間の応答は、一元的権威を持つ「金の標準」応答を持つデータに対して測定できる程度に反復可能であると仮定している。
既存または計画された)評価データセットが、あるモデルの性能を他のモデルと確実に比較するのに十分な応答を持っているかどうかを判断する手法を提案する。
論文 参考訳(メタデータ) (2024-12-04T02:31:28Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - xFinder: Large Language Models as Automated Evaluators for Reliable Evaluation [9.22621553566816]
本稿では,キー応答抽出モジュールの最適化により抽出精度が向上し,信頼性が向上することを示す。
大規模言語モデル(LLM)評価において,応答抽出とマッチングのための新しい評価器であるxFinderを提案する。
一般化テストと実世界の評価では、最小のxFinderモデルは5億のパラメータしか持たないが、平均抽出精度は93.42%である。
xFinderの最終判定精度は97.61%に達し、既存の評価フレームワークや審査モデルを上回っている。
論文 参考訳(メタデータ) (2024-05-20T08:30:13Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - How can I choose an explainer? An Application-grounded Evaluation of
Post-hoc Explanations [2.7708222692419735]
説明は意思決定タスクに対する実際の影響に基づいて評価されることはめったにない。
本研究は,エンドユーザーに対して異なるレベルの情報を提供することによる影響を分離するアプリケーショングラウンド評価手法であるXAI Testを提案する。
強い統計的分析を用いて、一般的な説明者は、望まれるよりも悪い影響を持つことを示す。
論文 参考訳(メタデータ) (2021-01-21T18:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。