Fugu-MT 論文翻訳(概要): Return of EM: Entity-driven Answer Set Expansion for QA Evaluation

論文の概要: Return of EM: Entity-driven Answer Set Expansion for QA Evaluation

arxiv url: http://arxiv.org/abs/2404.15650v1
Date: Wed, 24 Apr 2024 05:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 20:09:25.146340
Title: Return of EM: Entity-driven Answer Set Expansion for QA Evaluation
Title（参考訳）: EMの返却:QA評価のためのエンティティ駆動型回答セットの拡張
Authors: Dongryeol Lee, Minwoo Lee, Kyungmin Min, Joonsuk Park, Kyomin Jung,
Abstract要約: 本稿では,QAモデルの評価にエンティティ駆動型回答セット拡張を用いたソフトEMを提案する。本手法は, 表面形状が実体の種類によっては特定のパターンに従うことがしばしばあるという観察に基づいて, 多様な表面形状を含むように金の解集合を拡張する。
参考スコア（独自算出の注目度）: 18.27357367772278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, directly using large language models (LLMs) has been shown to be the most reliable method to evaluate QA models. However, it suffers from limited interpretability, high cost, and environmental harm. To address these, we propose to use soft EM with entity-driven answer set expansion. Our approach expands the gold answer set to include diverse surface forms, based on the observation that the surface forms often follow particular patterns depending on the entity type. The experimental results show that our method outperforms traditional evaluation methods by a large margin. Moreover, the reliability of our evaluation method is comparable to that of LLM-based ones, while offering the benefits of high interpretability and reduced environmental harm.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)を直接使用することが,QAモデルを評価する上で最も信頼性の高い手法であることが示されている。しかし、限定的な解釈可能性、高いコスト、環境被害に悩まされている。そこで本研究では,エンティティ駆動型回答セット拡張を用いたソフトEMを提案する。本手法は, 表面形状が実体の種類によっては特定のパターンに従うことがしばしばあるという観察に基づいて, 多様な表面形状を含むように金の解集合を拡張する。実験結果から,本手法は従来の評価手法よりも高い性能を示した。さらに,評価手法の信頼性はLLM法と同等であり,高い解釈可能性と環境負荷の低減の利点も提供する。

関連論文リスト

Revisiting Feedback Models for HyDE [49.53124785319461]
HyDE は LLM 生成した仮説的回答文書でクエリ表現を豊かにする手法である。実験の結果,Rocchioなどのフィードバックアルゴリズムを利用して抽出と重み拡張を行う場合,HyDEの有効性は著しく向上することがわかった。
論文参考訳（メタデータ） (2025-11-24T17:50:18Z)
Silenced Biases: The Dark Side LLMs Learned to Refuse [5.2630646053506345]
モデルの潜在空間内にエンコードされた不公平な選好であるサイレントバイアスの概念を導入する。我々は,アクティベーションステアリングを用いて,これらのバイアスを明らかにすることを目的としたサイレンスドバイアスベンチマーク(SBB)を提案する。
論文参考訳（メタデータ） (2025-11-05T11:24:50Z)
TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models [16.857263524133284]
大規模言語モデル(LLM)は、現実の自律型アプリケーションに統合されつつある。評価のための静的な注釈付き参照に頼ることは、コスト、スケーラビリティ、完全性において大きな課題を引き起こす。提案するツール拡張LDM評価(TALE: Tool-Augmented LLM Evaluation)は,LLMの出力を所定の基礎的回答なしで評価するフレームワークである。
論文参考訳（メタデータ） (2025-04-10T02:08:41Z)
Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。本稿では,予測の基盤性を考慮した新しい評価手法を提案する。提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文参考訳（メタデータ） (2025-03-24T20:14:46Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。 DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。 DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文参考訳（メタデータ） (2025-03-11T15:29:55Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation [5.653106385738822]
ポリーティング(Polyrating)は、最大後方推定に基づく表現的かつ柔軟な評価システムである。人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。人的評価のコストを、新しいモデルで最大41%、新しいタスクで最大77%削減することができる。
論文参考訳（メタデータ） (2024-09-01T11:24:54Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Sanity Simulations for Saliency Methods [18.824159568744996]
saliencyメソッドは、入力画像内の「重要な」ピクセルを識別することで、モデルの予測推論をキャプチャすることを目的としている。現在、Saliencyメソッドの開発と導入は、基礎となるモデル推論へのアクセスの欠如によって妨げられている。本研究では,サリエンシー法の評価を行うための合成評価フレームワークsmerfを設計した。
論文参考訳（メタデータ） (2021-05-13T18:40:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。