論文の概要: Return of EM: Entity-driven Answer Set Expansion for QA Evaluation
- arxiv url: http://arxiv.org/abs/2404.15650v2
- Date: Tue, 11 Jun 2024 09:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 22:03:14.312229
- Title: Return of EM: Entity-driven Answer Set Expansion for QA Evaluation
- Title(参考訳): EMの返却:QA評価のためのエンティティ駆動型回答セットの拡張
- Authors: Dongryeol Lee, Minwoo Lee, Kyungmin Min, Joonsuk Park, Kyomin Jung,
- Abstract要約: 本稿では,QAモデルの評価にエンティティ駆動型回答セット拡張を用いたソフトEMを提案する。
本手法は, 表面形状が実体の種類によっては特定のパターンに従うことがしばしばあるという観察に基づいて, 多様な表面形状を含むように金の解集合を拡張する。
- 参考スコア(独自算出の注目度): 18.27357367772278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, directly using large language models (LLMs) has been shown to be the most reliable method to evaluate QA models. However, it suffers from limited interpretability, high cost, and environmental harm. To address these, we propose to use soft EM with entity-driven answer set expansion. Our approach expands the gold answer set to include diverse surface forms, based on the observation that the surface forms often follow particular patterns depending on the entity type. The experimental results show that our method outperforms traditional evaluation methods by a large margin. Moreover, the reliability of our evaluation method is comparable to that of LLM-based ones, while offering the benefits of high interpretability and reduced environmental harm.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を直接使用することが,QAモデルを評価する上で最も信頼性の高い手法であることが示されている。
しかし、限定的な解釈可能性、高いコスト、環境被害に悩まされている。
そこで本研究では,エンティティ駆動型回答セット拡張を用いたソフトEMを提案する。
本手法は, 表面形状が実体の種類によっては特定のパターンに従うことがしばしばあるという観察に基づいて, 多様な表面形状を含むように金の解集合を拡張する。
実験結果から,本手法は従来の評価手法よりも高い性能を示した。
さらに,評価手法の信頼性はLLM法と同等であり,高い解釈可能性と環境負荷の低減の利点も提供する。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文 参考訳(メタデータ) (2022-08-03T22:02:50Z) - Sanity Simulations for Saliency Methods [18.824159568744996]
saliencyメソッドは、入力画像内の「重要な」ピクセルを識別することで、モデルの予測推論をキャプチャすることを目的としている。
現在、Saliencyメソッドの開発と導入は、基礎となるモデル推論へのアクセスの欠如によって妨げられている。
本研究では,サリエンシー法の評価を行うための合成評価フレームワークsmerfを設計した。
論文 参考訳(メタデータ) (2021-05-13T18:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。