論文の概要: Revisiting NLI: Towards Cost-Effective and Human-Aligned Metrics for Evaluating LLMs in Question Answering
- arxiv url: http://arxiv.org/abs/2511.07659v1
- Date: Wed, 12 Nov 2025 01:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.415393
- Title: Revisiting NLI: Towards Cost-Effective and Human-Aligned Metrics for Evaluating LLMs in Question Answering
- Title(参考訳): NLIを再考する: 質問応答におけるLCMの評価のための費用効果と人為的基準に向けて
- Authors: Sai Shridhar Balamurali, Lu Cheng,
- Abstract要約: 我々は、単純な語彙マッチフラグによって強化された軽量な代替 -- 既製の自然言語推論(NLI)を再評価する。
この数十年前の手法は、長めのQAにおいてGPT-4oの精度(89.9%)と一致し、桁違いのパラメータは少ないことが判明した。
この結果から, 安価なNLIベースの評価は依然として競争力があり, DIVER-QA を将来の計量研究のオープンリソースとして提供することが示唆された。
- 参考スコア(独自算出の注目度): 7.344577590113121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating answers from state-of-the-art large language models (LLMs) is challenging: lexical metrics miss semantic nuances, whereas "LLM-as-Judge" scoring is computationally expensive. We re-evaluate a lightweight alternative -- off-the-shelf Natural Language Inference (NLI) scoring augmented by a simple lexical-match flag and find that this decades-old technique matches GPT-4o's accuracy (89.9%) on long-form QA, while requiring orders-of-magnitude fewer parameters. To test human alignment of these metrics rigorously, we introduce DIVER-QA, a new 3000-sample human-annotated benchmark spanning five QA datasets and five candidate LLMs. Our results highlight that inexpensive NLI-based evaluation remains competitive and offer DIVER-QA as an open resource for future metric research.
- Abstract(参考訳): 最先端の大規模言語モデル (LLM) からの回答を評価することは困難である: 語彙メトリクスは意味的ニュアンスを見逃し、一方 "LLM-as-Judge" のスコアは計算的に高価である。
我々は、単純な語彙マッチフラグによって強化された軽量な代替品である、オフザシェルの自然言語推論(NLI)を再評価し、この数十年前のテクニックが長文QAにおけるGPT-4oの精度(89.9%)と一致することを発見した。
これらの指標の厳密なアライメントをテストするために,5つのQAデータセットと5つの候補LLMにまたがる3000サンプルの人手による新しいベンチマークであるDIVER-QAを紹介した。
この結果から, 安価なNLIベースの評価は依然として競争力があり, DIVER-QA を将来の計量研究のオープンリソースとして提供することが示唆された。
関連論文リスト
- The illusion of a perfect metric: Why evaluating AI's words is harder than it looks [0.0]
自然言語生成(NLG)は、AIの実用化に不可欠である。
人間の評価はデファクトスタンダードと考えられているが、高価でスケーラビリティに欠ける。
決定的な解として単一の計量が現れることはなく、結果として、完全に含意を考慮せずに異なる計量を用いた研究が行われる。
論文 参考訳(メタデータ) (2025-08-19T13:22:41Z) - A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis [1.5802986215292303]
我々は,n-gram統計量と規則を用いた大規模言語モデル(LLM)を評価する新しいベンチマークを提案する。
質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。
本ベンチマークはGPT-4oに基づく評価と相関するが,計算資源は著しく少ない。
論文 参考訳(メタデータ) (2025-02-13T13:30:54Z) - PPLqa: An Unsupervised Information-Theoretic Quality Metric for Comparing Generative Large Language Models [9.027802326177135]
生成型大規模言語モデル(LLM)の応答の質を測定するため,計算が容易で言語に依存しない情報理論の指標であるPPLqaを提案する。
この方法と測定基準により、ユーザが生成言語モデルに応答の質をランク付けし、与えられたタスクに最適なモデルを選択することができる。
論文 参考訳(メタデータ) (2024-11-22T19:28:06Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。