論文の概要: Return of EM: Entity-driven Answer Set Expansion for QA Evaluation
- arxiv url: http://arxiv.org/abs/2404.15650v1
- Date: Wed, 24 Apr 2024 05:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:09:25.146340
- Title: Return of EM: Entity-driven Answer Set Expansion for QA Evaluation
- Title(参考訳): EMの返却:QA評価のためのエンティティ駆動型回答セットの拡張
- Authors: Dongryeol Lee, Minwoo Lee, Kyungmin Min, Joonsuk Park, Kyomin Jung,
- Abstract要約: 本稿では,QAモデルの評価にエンティティ駆動型回答セット拡張を用いたソフトEMを提案する。
本手法は, 表面形状が実体の種類によっては特定のパターンに従うことがしばしばあるという観察に基づいて, 多様な表面形状を含むように金の解集合を拡張する。
- 参考スコア(独自算出の注目度): 18.27357367772278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, directly using large language models (LLMs) has been shown to be the most reliable method to evaluate QA models. However, it suffers from limited interpretability, high cost, and environmental harm. To address these, we propose to use soft EM with entity-driven answer set expansion. Our approach expands the gold answer set to include diverse surface forms, based on the observation that the surface forms often follow particular patterns depending on the entity type. The experimental results show that our method outperforms traditional evaluation methods by a large margin. Moreover, the reliability of our evaluation method is comparable to that of LLM-based ones, while offering the benefits of high interpretability and reduced environmental harm.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を直接使用することが,QAモデルを評価する上で最も信頼性の高い手法であることが示されている。
しかし、限定的な解釈可能性、高いコスト、環境被害に悩まされている。
そこで本研究では,エンティティ駆動型回答セット拡張を用いたソフトEMを提案する。
本手法は, 表面形状が実体の種類によっては特定のパターンに従うことがしばしばあるという観察に基づいて, 多様な表面形状を含むように金の解集合を拡張する。
実験結果から,本手法は従来の評価手法よりも高い性能を示した。
さらに,評価手法の信頼性はLLM法と同等であり,高い解釈可能性と環境負荷の低減の利点も提供する。
関連論文リスト
- HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文 参考訳(メタデータ) (2022-08-03T22:02:50Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Sanity Simulations for Saliency Methods [18.824159568744996]
saliencyメソッドは、入力画像内の「重要な」ピクセルを識別することで、モデルの予測推論をキャプチャすることを目的としている。
現在、Saliencyメソッドの開発と導入は、基礎となるモデル推論へのアクセスの欠如によって妨げられている。
本研究では,サリエンシー法の評価を行うための合成評価フレームワークsmerfを設計した。
論文 参考訳(メタデータ) (2021-05-13T18:40:57Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。